GPT-4+ · Claude 3+ · Gemini 2+ · Llama 4 — all modern LLMs use this tokenizer
0 chars · 0 words
Token Estimate
⚡
Paste text above to count tokens
Cost Reference (input tokens)
Waiting for input…
About the Token Counter
Token Counter Hakkında
Tokens are the units LLMs work with: roughly 4 characters of English (or about 0.75 words on average), but the relationship is heavily content-dependent. Common English words may be single tokens; rare words, numbers, code, and non-English text fragment into many more tokens. The same paragraph in English vs Turkish can have 1.5–2× different token counts.
This tool counts tokens for the major tokenizer families (cl100k_base / o200k_base for recent OpenAI and Anthropic models; tiktoken-compatible). It shows the breakdown — token count, character count, ratio, and rough cost estimate at typical pricing. Useful for prompt-engineering work, context-window planning, and cost forecasting.
Counts are approximate when crossing tokenizer families. For exact accounting, use the provider's own tokenizer at request time. For planning, the tool is within 5–10% of actual production counts in most cases.
Token'lar LLM'lerin çalıştığı birimlerdir: kabaca İngilizce'de 4 karakter (veya ortalama ~0,75 kelime), ama ilişki içeriğe bağımlıdır. Yaygın İngilizce kelimeler tek token olabilir; nadir kelimeler, sayılar, kod ve İngilizce dışı metin çok daha fazla token'a ayrışır. Aynı paragrafın İngilizce ve Türkçe versiyonları 1,5–2× farklı token sayılarına sahip olabilir.
Bu araç ana tokenizer aileleri için token sayar (yakın OpenAI ve Anthropic modelleri için cl100k_base / o200k_base; tiktoken uyumlu). Dökümü gösterir — token sayısı, karakter sayısı, oran ve tipik fiyatlandırmada kabaca maliyet tahmini. Prompt mühendisliği, context-window planlaması ve maliyet tahmini için faydalı.
Tokenizer aileleri arasında geçişte sayımlar yaklaşıktır. Kesin muhasebe için istek anında sağlayıcının kendi tokenizer'ını kullanın. Planlama için araç çoğu durumda gerçek üretim sayımlarının %5–%10 içinde.
Where token counts matter
Token sayısı ne zaman önemli
Context-window planning. A model with 200k context window can hold roughly 150k English words or 100k mixed-content tokens once you include the system prompt, history, and headroom for output. Use the counter to size what fits.
Cost forecasting. Multiply average input + output tokens by request volume by per-token price. The counter does the first step; the rate calculator does the rest.
Multilingual cost surprise. A Turkish-language application costs 1.5–2× more in tokens than the equivalent English application. Budget accordingly when localizing.
Context-window planlaması. 200k context window'lu model, sistem prompt'u, geçmiş ve output için boşluk dahil edildikten sonra kabaca 150k İngilizce kelime veya 100k karışık içerik token tutar. Neyin sığacağını boyutlandırmak için sayacı kullanın.
Maliyet tahmini. Ortalama input + output token'ı istek hacmiyle ve token başına fiyatla çarpın. Sayaç ilk adımı yapar; rate calculator gerisini.
Çok dilli maliyet sürprizi. Türkçe uygulama eşdeğer İngilizce uygulamadan token cinsinden 1,5–2× pahalıdır. Lokalize ederken buna göre bütçeleyin.
Token estimation pitfalls
Token tahmin tuzakları
Assuming 4 chars/token universally. Holds for English prose; far off for code, numbers, URLs, JSON, or non-English text.
Forgetting system prompt and history. They count too. A multi-turn chat consumes tokens from every previous message.
Ignoring output tokens. Output is the expensive direction (3–5× input price for most models).
4 karakter/token'ı evrensel sayma. İngilizce metin için geçerli; kod, sayı, URL, JSON veya İngilizce dışı metin için çok uzak.
Sistem prompt'u ve geçmişi unutmak. Onlar da sayılır. Çok turlu sohbet her önceki mesajdan token tüketir.
Output token'ları görmezden gelmek. Output pahalı yöndür (çoğu model için input fiyatın 3–5× üstü).
Frequently asked questions
Sık sorulan sorular
Why are tokens not the same as words?
Tokenizers learn statistical patterns over a training corpus. Common substrings become single tokens regardless of word boundary; rare ones split into multiple tokens. The result is more space-efficient than per-word.
Which tokenizer does this use?
We support OpenAI's cl100k_base and o200k_base by default (used by GPT-4 family and Anthropic's models, approximately). Different providers may differ slightly.
Are token counts consistent across providers?
No — each provider has its own tokenizer. Counts can differ by 5–20% between providers for the same input.
Does whitespace count?
Yes — leading/trailing whitespace and multiple spaces often become tokens. Trim consistently if you want predictable counts.
Token'lar neden kelimelerle aynı değil?
Tokenizer'lar bir eğitim corpus'u üzerinde istatistiksel desenler öğrenir. Yaygın altdize'ler kelime sınırından bağımsız tek token olur; nadir olanlar birden çok token'a bölünür. Sonuç kelime başınadan daha alan verimli.
Hangi tokenizer kullanılıyor?
Varsayılan olarak OpenAI'nin cl100k_base ve o200k_base'ini destekliyoruz (yaklaşık olarak GPT-4 ailesi ve Anthropic modelleri tarafından kullanılır). Farklı sağlayıcılar hafif farklı olabilir.
Token sayıları sağlayıcılar arası tutarlı mı?
Hayır — her sağlayıcının kendi tokenizer'ı vardır. Aynı girdi için sağlayıcılar arası %5–%20 fark olabilir.
Boşluk sayılır mı?
Evet — baştaki/sondaki boşluk ve birden çok boşluk genelde token olur. Öngörülebilir sayı istiyorsanız tutarlı şekilde trim edin.