LLM Rate Calc
Plan your API capacity before hitting 429 errors in production.
Supports OpenAI GPT-5.4, GPT-4.1, o3, o4-mini, Anthropic Claude Opus 4.7, Sonnet 4.6, Haiku 4.5, Google Gemini 3.1, Gemini 2.5, Groq Llama 4, DeepSeek V3, Mistral, xAI Grok. Calculate RPM, TPM, concurrent users, and monthly API costs.
About the LLM Rate Calculator
LLM Maliyet Hesaplayıcı Hakkında
This tool estimates total cost for an LLM-based workflow. You provide model choice, average input/output token sizes, requests per day, and (optionally) cache hit rate. The calculator multiplies through and gives daily, monthly, and annual cost — with separate lines for input, output, and cached input.
For most production workloads, the cost structure is dominated by 2–3 factors: model choice (frontier vs smaller), output token volume (output is 3–5× input price), and cache utilization (typically 90% discount on cached prefixes). Optimizing these three covers most savings.
The calculator helps with three real decisions: deciding whether to migrate to a different model class, deciding whether prompt caching engineering is worth the effort, and estimating cost before launching a new feature so you can size the budget conversation honestly.
Bu araç LLM tabanlı bir iş akışı için toplam maliyeti tahmin eder. Model seçimi, ortalama input/output token boyutları, günlük istek sayısı ve (opsiyonel) cache hit oranı verirsiniz. Hesaplayıcı çarpar ve günlük, aylık ve yıllık maliyet verir — input, output ve cache'lenmiş input için ayrı satırlar.
Çoğu üretim iş yükünde maliyet yapısı 2–3 faktörle baskınlaşır: model seçimi (frontier vs küçük), output token hacmi (output input'tan 3–5× pahalı) ve cache kullanımı (genellikle cache'lenmiş prefix'lerde %90 indirim). Bu üçünü optimize etmek tasarrufun büyük kısmını kapsar.
Hesaplayıcı üç gerçek kararda yardım eder: farklı model sınıfına geçmenin değer olup olmadığına karar vermek, prompt caching mühendisliğinin eforuna değer olup olmadığını anlamak ve yeni özellik lansmanı öncesi maliyeti tahmin etmek; böylece bütçe sohbetini dürüstçe boyutlandırabilirsiniz.
Where LLM costs come from
LLM maliyetleri nereden geliyor
Migration sanity check. A workflow currently using a frontier model at $15/M output tokens, 2k average output, 100k requests/day = $300/day. Switching to a smaller model at $1/M output saves ~$280/day or $100k/year — if quality holds.
Cache payback. A 5k-token system prompt repeated across 50k daily requests at $3/M input = $750/day at full price. Caching that prefix at 90% discount drops it to $75/day; over a year, $250k saved.
Output trimming. Cutting average output from 800 to 200 tokens (by instruction tuning the prompt) divides output cost by 4. At $15/M output and 50k req/day, that's $90/day saved.
Migration kontrolü. Şu anda frontier modeli $15/M output token'da, 2k ortalama output, 100k istek/gün = $300/gün kullanan iş akışı. $1/M output'lu küçük modele geçmek ~$280/gün veya $100k/yıl tasarruf eder — kalite tutarsa.
Cache geri ödeme. 5k token'lık sistem prompt'u günlük 50k istekte tekrarlanır, $3/M input'ta tam fiyat $750/gün. O prefix'i %90 indirimle cache'lemek $75/gün'e düşürür; yılda $250k tasarruf.
Output kırpma. Ortalama output'u 800'den 200 token'a (prompt'u talimatla ayarlayarak) düşürmek output maliyetini 4'e böler. $15/M output ve 50k istek/gün ile $90/gün tasarruf.
Cost estimation mistakes
Maliyet tahmin hataları
- Estimating from peak instead of average. Peak requests are 2–3× average. Cost is dominated by average, not peak.
- Ignoring reasoning tokens. Some models charge separately for internal reasoning tokens, which can dwarf visible output for hard tasks.
- Overestimating cache savings. 90% discount applies only to the cached portion. If 80% of input is variable, only 20% sees the discount.
- Forgetting failed requests. Retries and refused requests still consume input tokens. Add 5–10% buffer.
- Ortalama yerine pikten tahmin etmek. Pik istekler ortalamanın 2–3 katıdır. Maliyet pikle değil ortalamayla baskınlaşır.
- Reasoning token'ları görmezden gelmek. Bazı modeller iç reasoning token'ları için ayrı ücretlendirir; zor görevlerde görünür output'u gölgede bırakabilir.
- Cache tasarruflarını abartmak. %90 indirim yalnızca cache'lenmiş kısma uygulanır. Input'un %80'i değişkense, sadece %20'si indirim görür.
- Başarısız istekleri unutmak. Yeniden denemeler ve reddedilen istekler hâlâ input token tüketir. %5–%10 tampon ekleyin.
Frequently asked questions
Sık sorulan sorular
Are prices always per million tokens?
Most providers price per million tokens, separated into input and output. Some have additional tiers for reasoning, image inputs, audio inputs, etc. Check the current pricing page of your provider.
How accurate is this estimate?
For steady-state workloads, within 5–15% of actual. The biggest sources of error are inaccurate input/output size averages and unaccounted retries.
Does it handle multi-model workflows?
Compute each model leg separately and sum. The tool helps with one leg at a time.
What about batch pricing?
Most providers discount batch (async) at 50%. If your workload tolerates a 24-hour turnaround, run that estimate at half rate.
Fiyatlar her zaman milyon token başına mı?
Çoğu sağlayıcı milyon token başına fiyatlar; input ve output ayrı. Bazılarında reasoning, görüntü input'u, ses input'u vb. için ek kademeler vardır. Sağlayıcınızın güncel fiyat sayfasını kontrol edin.
Bu tahmin ne kadar doğru?
Kararlı durum iş yükleri için gerçeğin %5–%15 içinde. En büyük hata kaynakları yanlış input/output boyut ortalamaları ve hesaba katılmamış yeniden denemelerdir.
Çoklu-model iş akışlarını ele alır mı?
Her model bacağını ayrı hesaplayıp toplayın. Araç tek bacakla yardım eder.
Batch fiyatlandırma?
Çoğu sağlayıcı batch (async) için %50 indirim verir. İş yükünüz 24 saat geri dönüş tolere ediyorsa, o tahmini yarı oranda çalıştırın.