Opus 4.6とOpus 4.7のトークンコスト計算機
(tokens.billchambers.me)- Opus 4.7の新しいトークナイザーにより、同じプロンプトがより多くのトークンとして集計される問題を分析できる計算ツール
- 同じ入力でもコンテンツの種類に応じて1.0〜1.35倍のトークンにマッピングされ、単語を変えなくてもリクエストごとのコストが増加
- 実際に集計すると、Opus 4.7はOpus 4.6に比べて平均リクエストトークンと平均リクエストコストがそれぞれ**+37.4%**増加
- 増加幅は直近50件を基準に最小**+19.0%から最大+86.2%まで分布し、+30%台と+40%台**の事例が広く分布
- このページでは会話、システムプロンプト、テキストを貼り付けると、Opus 4.7 vs 4.6のトークン数差と現在価格基準のコストを具体的に比較して提供
このツールが作られた背景
- Opus 4.7のリリース告知ではOpus 4.6の直接的なアップグレードとして紹介されたが、トークン使用量に影響する2つの変更点が存在
- 更新されたトークナイザーにより、同じ入力でもコンテンツの種類に応じて1.0〜1.35倍のトークンにマッピングされる
- 高いeffortレベルでは、特にエージェント的な環境の後半ターンでより多く思考するため、出力トークン数が増加
- 難しい問題に対する信頼性は向上する一方で、トークンベースのコスト構造に直接的な影響がある
ユーザーへの影響
- 同じプロンプトテキストでもOpus 4.7ではより多くのトークンとしてカウントされるため、文言を変えなくてもリクエストごとのコストが上昇
- Tokenomicsでは任意の会話、システムプロンプト、テキストを貼り付けて、Opus 4.7と4.6のトークン数差を直接確認できる
- 現在価格基準で具体的なコスト差を算出
コミュニティ平均ページ
/leaderboardページでツール利用者の匿名比較データを集計- さまざまなプロンプト種別ごとの実際のトークン増加率平均を実利用ベースで確認可能
知っておくべき事項
- プロンプトテキストは保存しない: 入力はブラウザで解析後にサーバーへ送信され、AnthropicのトークンカウントAPIに渡される。プロンプトテキストはDBに保存せず、匿名のトークンカウント指標のみを保存
- Anthropicの公式製品ではない: Bill Chambersが制作したもので、Anthropicと提携・保証・後援関係はない
- オープンソース: 全ソースコードはGitHub(
bllchmbrs/tokensmatter)で公開されており、貢献やフィードバックを歓迎
コミュニティ平均
- 匿名で提出された実利用リクエスト比較を基準に、Opus 4.6と比べたOpus 4.7のリクエストトークンとリクエストコストの差を集計
- 合計425件の提出をもとに集計
- 最近の比較一覧は直近50件で、新しい順に並んでいる
- 平均リクエストトークン変化率 +37.4%
- 平均リクエストコスト変化率 +37.4%
- 平均リクエストサイズ 369 / 495
- 原文ではこの2つの数値に関する追加説明はない
最近の匿名比較事例
- 直近50件の表では、大半の事例でOpus 4.7のリクエストトークン増加とコスト増加が同じ比率で記録されている
- 例1:
6b5d3ebfの提出、リクエスト 23 → 31、コスト $0.000345 → $0.000465、変化率 +34.8% - 例2:
1363973aの提出、リクエスト 99 → 130、コスト $0.001485 → $0.001950、変化率 +31.3% - 例3:
17a9645eの提出、リクエスト 16 → 20、コスト $0.000240 → $0.000300、変化率 +25.0%
- 例1:
- 小さなリクエストでも増加幅が確認できる
10c3149aの提出、リクエスト 8 → 14、コスト $0.000120 → $0.000210、変化率 +75.0%8f58e536の提出、リクエスト 8 → 13、コスト $0.000120 → $0.000195、変化率 +62.5%942f5d38の提出、リクエスト 12 → 19、コスト $0.000180 → $0.000285、変化率 +58.3%
- 中規模リクエストでも同様の増加事例が繰り返される
67f5f437の提出、リクエスト 188 → 275、コスト $0.002820 → $0.004125、変化率 +46.3%04249c86の提出、リクエスト 176 → 256、コスト $0.002640 → $0.003840、変化率 +45.5%af25da70の提出、リクエスト 269 → 501、コスト $0.004035 → $0.007515、変化率 +86.2%
- 大きなリクエストでも同様の増加パターンが確認できる
c5d75d71の提出、リクエスト 2,263 → 3,282、コスト $0.0339 → $0.0492、変化率 +45.0%4db385b5の提出、リクエスト 1,592 → 2,205、コスト $0.0239 → $0.0331、変化率 +38.5%68375705の提出、リクエスト 4,449 → 6,434、コスト $0.0667 → $0.0965、変化率 +44.6%
- 同じ数値が繰り返される提出項目も多数含まれる
- リクエスト 175 → 221、コスト $0.002625 → $0.003315、変化率 +26.3% の事例が複数の提出IDで繰り返される
- リクエスト 996 → 1,392、コスト $0.0149 → $0.0209、変化率 +39.8% の事例が複数の提出IDで繰り返される
- リクエスト 43 → 61、コスト $0.000645 → $0.000915、変化率 +41.9% の事例が複数の提出IDで繰り返される
1件のコメント
Hacker Newsのコメント
公平に比較するなら、総コストを見るべきだと思う。4.7は4.6より出力トークンがずっと少なく、推論コストもかなり下がっているようだ。Artificial Analysisの比較を見ると、4.7は4.6よりわずかに安く、4.5はほぼ半額の水準だ。特にreasoningコストは4.6から4.7でほぼ半減しているのが目立つ。ただ、Claude Codeのような実際のワークロードでは入力と推論の比重がどちらも大きそうなので、入力単価の上昇と推論単価の低下がどう相殺されるのかはまだ感覚がつかめない。推論の多い作業は安くなるかもしれないが、推論の少ない作業はむしろ高くなる可能性もあると思う。そういう作業なら、自分はむしろCodexを使うと思う
体感では4.6から4.7への性能向上はほとんど感じない一方で、limitの消費速度は非常にはっきり感じる。昨日は5時間の上限を2時間で使い切り、リファクタリングしようとbatched modeを有効にしたら5分で上限の30%を使ってしまったのでキャンセルした。その後serial方式に切り替えると多少は減ったが、それでも4.6よりはるかに速く消費されるのは明らかだった。今は会話1回で5時間上限の約5%ずつ減る感覚で、以前は1〜2%程度だった。自分はMax 5xプランなので、まだ週次上限には余裕があり耐えられるが、少なくともこの点はもっと透明に説明するか改善してほしい。effort設定もまだ不透明すぎて、実質的な助けになりにくい
結果さえ良ければもっと払っても構わないが、今はAnthropicが間欠的報酬のような形でトークンを使い続けさせる方向に見える。Claude系はGPTやCodexより確かに面白く、個性もあり、デザイン感覚や美的感覚もある。一緒にvibe-codingしている感じはゲームのように楽しい。でも成果物はほぼ毎回、似たような問題に行き着く。テストを消して通したり、重複コードを増やしたり、抽象化を誤ったり、型安全性を切ったり、ハードな要件を無視したりする。こうした問題は4.7でも解決されておらず、ベンチマークが何と言おうと実運用では依然として残っていると感じる。会社にこれを直す意思があるのかもよく分からない
この比較は、トークンカウントAPIでプロンプト長を2通りに測って、tokenizerの変化だけを切り分けて測定したように見える。より賢いモデルが応答を短くして出力トークンが減る場合もあるので、そこまで考えると、この比較だけで4.7が実際に安いと判断するのは難しいと感じる。もちろん結果として高くなることも安くなることもありうるが、この資料だけでは実使用の判断にはあまり役立たないと思う
当面はVSCode CopilotでOpus 4.5を引き続きメインで使うつもりだ。自分のワークフローではエージェントにかなり細かい指示を出すのだが、たいていのエージェントは必要以上にやりすぎる傾向がある。自分が使った中でOpus 4.5が最も優れていたのは、不完全なプロンプトでも自分の望む範囲を読み取って、本当に必要な分だけやろうとする傾向だった。4.6はより時間がかかり、考え込みすぎて、変更範囲も広がったし、上位GPTも似た問題があった。Sonnetのような他モデルは、粗めの指示から自分の意図を読み取る能力でOpusに及ばなかった。なので実験はやめて4.5だけを使い続けていたし、高価でもそれだけの価値はあると感じていた。ところが今度は4.7がVSCode Copilotで4.5と4.6の両方を置き換え、しかも7.5倍のmodifierまで付くというので、自分としては遅くて高い方向に進んでいるように見え、むしろ後退に感じる
ますます、LLMをただスケーリングするだけでホワイトカラー業務を全面的に置き換えられると考えるのは、素朴な仮定に思えてきた。attentionメカニズムやHopfield networkは人間の脳の一部しかモデル化していないように見えるし、最近あふれているagentic memoryの補強策こそ、現在のSOTA transformerだけでは十分でないことの証左に思える。テキスト領域に限っても限界が見えている気がするし、自分はYann LeCun的な主張を繰り返しているだけかもしれない
昨日、Opus 4.7で単一ページのWebサイトのベストプラクティスを整理しようとしたのだが、4回ほどのプロンプトで1日の上限を超えた。さらに7回ほど続けたところ、週次上限まで超えてしまった。HTML/CSS/JS全体でも300行に満たないコードだったのに、使用量上限がこんなに早く尽きるのを見てかなり衝撃だった
タイトルは4.7から4.6ではなく、4.6 to 4.7のほうが正しいように思う
Artificial Analysisの説明によると、Opus 4.7はAdaptive Reasoning、Max Effort条件でIntelligence Indexを回すのに約4,406ドルかかり、4.6の約4,970ドルより約11%安かった。スコアは4点高く、この差は新しいtokenizerを考慮しても出力トークン使用量が減ったためだという。ただしcached inputの割引はまだこの計算に反映されておらず、まもなくコスト計算に含める予定だとしている
自分の印象では、会話品質は予想外に良くなっていた。より自己批判的で、提案も常に批判的に吟味し、デフォルトの選択も概ねより良く感じる。ここにいる他の人たちほど各種harnessを使い込んではいないので差が目立ちにくいだけかもしれないが、準備不足のユーザーほど、むしろ価値は大きいのではないかと思う。最近のレビューの流れを振り返ったり、製品議論を追ったりする程度の基本作業だけでも、4.6は有用だがうっかりfoot-gunになりやすかったのに対し、4.7はチームのシニアメンバーのように振る舞う可能性がより高く見える