Question 1

エンコーディングの違いは何ですか？

Accepted Answer

異なるモデルは異なるトークン化を使用します。GPT-4 と GPT-4o は、GPT-2/GPT-3 よりも新しいトークナイザーを使用しています。正確なカウントを得るには、対象モデルに一致するエンコーディングを選んでください。

Question 2

トークンと単語の関係はどうなりますか？

Accepted Answer

平均的には、1 トークン ≈ 0.75 語または 4 文字です（英語基準）。ただし、これは変動します——短く一般的な単語は 1 トークン未満になることもあれば、専門用語は複数のトークンになることもあります。

Question 3

同じテキストなのにトークン数が異なるのはなぜですか？

Accepted Answer

エンコーディングが異なるとトークン化も異なります。GPT-4o のトークナイザーは GPT-2 よりも効率的なため、同じテキストでも新しいエンコーディングではトークン数が少なくなることがあります。

Question 4

コードにも使えますか？

Accepted Answer

はい、コードにも使えます。プログラミング言語は異なるトークン化を行うため、同じ文字数の自然言語よりも多くのトークンを生成することがよくあります。

Question 5

最大テキスト長はどれくらいですか？

Accepted Answer

厳密な制限はありませんが、非常に長いテキストは処理に時間がかかる場合があります。ほとんどのテキストは瞬時にトークン数を計算できます。

Question 6

カウントの精度はどうですか？

Accepted Answer

このツールは各モデルファミリーの実際のトークン化アルゴリズムを使用しているため、選択したエンコーディングについては通常 100% 正確です。

Token カウンター

Token Counter について