2 ポイント 投稿者 GN⁺ 11 일 전 | 1件のコメント | WhatsAppで共有
  • Opus 4.7の新しいトークナイザーにより、同じプロンプトがより多くのトークンとして集計される問題を分析できる計算ツール
  • 同じ入力でもコンテンツの種類に応じて1.0〜1.35倍のトークンにマッピングされ、単語を変えなくてもリクエストごとのコストが増加
  • 実際に集計すると、Opus 4.7はOpus 4.6に比べて平均リクエストトークンと平均リクエストコストがそれぞれ**+37.4%**増加
  • 増加幅は直近50件を基準に最小**+19.0%から最大+86.2%まで分布し、+30%台と+40%台**の事例が広く分布
  • このページでは会話、システムプロンプト、テキストを貼り付けると、Opus 4.7 vs 4.6のトークン数差と現在価格基準のコストを具体的に比較して提供

このツールが作られた背景

  • Opus 4.7のリリース告知ではOpus 4.6の直接的なアップグレードとして紹介されたが、トークン使用量に影響する2つの変更点が存在
    • 更新されたトークナイザーにより、同じ入力でもコンテンツの種類に応じて1.0〜1.35倍のトークンにマッピングされる
    • 高いeffortレベルでは、特にエージェント的な環境の後半ターンでより多く思考するため、出力トークン数が増加
  • 難しい問題に対する信頼性は向上する一方で、トークンベースのコスト構造に直接的な影響がある

ユーザーへの影響

  • 同じプロンプトテキストでもOpus 4.7ではより多くのトークンとしてカウントされるため、文言を変えなくてもリクエストごとのコストが上昇
  • Tokenomicsでは任意の会話、システムプロンプト、テキストを貼り付けて、Opus 4.7と4.6のトークン数差を直接確認できる
  • 現在価格基準で具体的なコスト差を算出

コミュニティ平均ページ

  • /leaderboardページでツール利用者の匿名比較データを集計
  • さまざまなプロンプト種別ごとの実際のトークン増加率平均を実利用ベースで確認可能

知っておくべき事項

  • プロンプトテキストは保存しない: 入力はブラウザで解析後にサーバーへ送信され、AnthropicのトークンカウントAPIに渡される。プロンプトテキストはDBに保存せず、匿名のトークンカウント指標のみを保存
  • Anthropicの公式製品ではない: Bill Chambersが制作したもので、Anthropicと提携・保証・後援関係はない
  • オープンソース: 全ソースコードはGitHub(bllchmbrs/tokensmatter)で公開されており、貢献やフィードバックを歓迎

コミュニティ平均

  • 匿名で提出された実利用リクエスト比較を基準に、Opus 4.6と比べたOpus 4.7のリクエストトークンとリクエストコストの差を集計
    • 合計425件の提出をもとに集計
    • 最近の比較一覧は直近50件で、新しい順に並んでいる
  • 平均リクエストトークン変化率 +37.4%
  • 平均リクエストコスト変化率 +37.4%
  • 平均リクエストサイズ 369 / 495
    • 原文ではこの2つの数値に関する追加説明はない

最近の匿名比較事例

  • 直近50件の表では、大半の事例でOpus 4.7のリクエストトークン増加コスト増加が同じ比率で記録されている
    • 例1: 6b5d3ebfの提出、リクエスト 23 → 31、コスト $0.000345 → $0.000465、変化率 +34.8%
    • 例2: 1363973aの提出、リクエスト 99 → 130、コスト $0.001485 → $0.001950、変化率 +31.3%
    • 例3: 17a9645eの提出、リクエスト 16 → 20、コスト $0.000240 → $0.000300、変化率 +25.0%
  • 小さなリクエストでも増加幅が確認できる
    • 10c3149aの提出、リクエスト 8 → 14、コスト $0.000120 → $0.000210、変化率 +75.0%
    • 8f58e536の提出、リクエスト 8 → 13、コスト $0.000120 → $0.000195、変化率 +62.5%
    • 942f5d38の提出、リクエスト 12 → 19、コスト $0.000180 → $0.000285、変化率 +58.3%
  • 中規模リクエストでも同様の増加事例が繰り返される
    • 67f5f437の提出、リクエスト 188 → 275、コスト $0.002820 → $0.004125、変化率 +46.3%
    • 04249c86の提出、リクエスト 176 → 256、コスト $0.002640 → $0.003840、変化率 +45.5%
    • af25da70の提出、リクエスト 269 → 501、コスト $0.004035 → $0.007515、変化率 +86.2%
  • 大きなリクエストでも同様の増加パターンが確認できる
    • c5d75d71の提出、リクエスト 2,263 → 3,282、コスト $0.0339 → $0.0492、変化率 +45.0%
    • 4db385b5の提出、リクエスト 1,592 → 2,205、コスト $0.0239 → $0.0331、変化率 +38.5%
    • 68375705の提出、リクエスト 4,449 → 6,434、コスト $0.0667 → $0.0965、変化率 +44.6%
  • 同じ数値が繰り返される提出項目も多数含まれる
    • リクエスト 175 → 221、コスト $0.002625 → $0.003315、変化率 +26.3% の事例が複数の提出IDで繰り返される
    • リクエスト 996 → 1,392、コスト $0.0149 → $0.0209、変化率 +39.8% の事例が複数の提出IDで繰り返される
    • リクエスト 43 → 61、コスト $0.000645 → $0.000915、変化率 +41.9% の事例が複数の提出IDで繰り返される

1件のコメント

 
GN⁺ 11 일 전
Hacker Newsのコメント
  • 公平に比較するなら、総コストを見るべきだと思う。4.7は4.6より出力トークンがずっと少なく、推論コストもかなり下がっているようだ。Artificial Analysisの比較を見ると、4.7は4.6よりわずかに安く、4.5はほぼ半額の水準だ。特にreasoningコストは4.6から4.7でほぼ半減しているのが目立つ。ただ、Claude Codeのような実際のワークロードでは入力と推論の比重がどちらも大きそうなので、入力単価の上昇と推論単価の低下がどう相殺されるのかはまだ感覚がつかめない。推論の多い作業は安くなるかもしれないが、推論の少ない作業はむしろ高くなる可能性もあると思う。そういう作業なら、自分はむしろCodexを使うと思う

    • 4.7があまり考えず、出力も少ないのは、forced adaptive thinkingのせいだと思う。APIユーザーでも無効にできず、わずか2週間前にOpus 4.6で品質問題を起こしていた、まさにその方式だ。当時も無効化を勧める意見があり、思考トークンを0に割り当てるケースまであったと記憶している。今でもOpus 4.7の品質低下を訴える人は多く、自分もかなり基本的なミスを頻繁に見ている。10分ずつトークンを燃やしながら、実際にはコードをきちんと読まず、hand-wavingでごまかしたあとで、後から自分でひっくり返すパターンが続いている。adaptive thinkingが有効なOpusは信頼しにくいと感じる。必要ならセッションフィードバックIDも提供できる
    • 同じモデル番号でも時期によって挙動やトークン使用量が変わるので、同一モデルの時点別テストのほうが公平だと考える人もいる。バージョン名が同じでも内部動作は変わりうるため、最近のテスト結果が将来の比較基準として適切とは限らないと思う
  • 体感では4.6から4.7への性能向上はほとんど感じない一方で、limitの消費速度は非常にはっきり感じる。昨日は5時間の上限を2時間で使い切り、リファクタリングしようとbatched modeを有効にしたら5分で上限の30%を使ってしまったのでキャンセルした。その後serial方式に切り替えると多少は減ったが、それでも4.6よりはるかに速く消費されるのは明らかだった。今は会話1回で5時間上限の約5%ずつ減る感覚で、以前は1〜2%程度だった。自分はMax 5xプランなので、まだ週次上限には余裕があり耐えられるが、少なくともこの点はもっと透明に説明するか改善してほしい。effort設定もまだ不透明すぎて、実質的な助けになりにくい

    • いちばん腹立たしいのは、adaptive thinkingの強制適用による品質低下だ。自分のMax 5x使用量の5〜10%を食って10分ずつ回った挙げ句、返ってくる結果は信頼しにくい水準であることが多い。実際のコードを読んで推論するより、問題を大ざっぱにやり過ごすような感じで、adaptive thinkingが有効なOpusは信頼できないと感じる
    • 自分の理解では、プロンプト間が5分以上空くと、compactやclearをしなくてもcache再初期化コストをまた払わされるようだ。compactを使ってもコストが完全になくなるわけではなく、入力トークンが少し減る程度に見える。ただ、compaction自体が無料なのかは自分も気になっている
  • 結果さえ良ければもっと払っても構わないが、今はAnthropicが間欠的報酬のような形でトークンを使い続けさせる方向に見える。Claude系はGPTやCodexより確かに面白く、個性もあり、デザイン感覚や美的感覚もある。一緒にvibe-codingしている感じはゲームのように楽しい。でも成果物はほぼ毎回、似たような問題に行き着く。テストを消して通したり、重複コードを増やしたり、抽象化を誤ったり、型安全性を切ったり、ハードな要件を無視したりする。こうした問題は4.7でも解決されておらず、ベンチマークが何と言おうと実運用では依然として残っていると感じる。会社にこれを直す意思があるのかもよく分からない

    • 自分もほぼ同じ気持ちだ。今のツールはGoogleの代替、面倒なスキャフォールディング、コードレビュー、高度な検索あたりに特に有用だと思う。すでにcoding LLM市場で地位を築いたので、今は本格的な収益化を始めているのだろうし、今後は性能向上はわずかなのに価格だけ40%以上上がるモデルが続くと予想している
    • AIはただ放っておくのではなく、ガイドするべきだと思う。きちんと導けるだけの腕があれば、十分に高品質な結果を引き出せる
    • 上の批判のうち、Anthropicが意図的にトークン消費を促す短期搾取戦略を採ったという解釈は、断定しすぎだと感じる。外部の人間が会社の戦略を知っているかのように語るのは無理があると思う。自分の推測では、そのシナリオよりも、インフラや受け入れ容量の問題で性能が揺れたとか、顧客が望む方向よりエンジニアが望む方向にチューニングされたとか、Mythos関連の安全性メッセージのように安全上の懸念からより慎重に作られたとか、そういった可能性のほうがずっと大きい。こうした要因は互いに排他的でもない。自分もOpus 4.7がそこまで印象的だとは感じていないが、まだ長く使ったわけでもなく、ベンチマークを自分で回したわけでもない。しかも最近Claudeにやらせている作業は、数週間前よりずっと難しいBayesian probabilistic modeling寄りなので、自分のほうがモデルの限界をより強く押しているだけかもしれないと思っている
  • この比較は、トークンカウントAPIでプロンプト長を2通りに測って、tokenizerの変化だけを切り分けて測定したように見える。より賢いモデルが応答を短くして出力トークンが減る場合もあるので、そこまで考えると、この比較だけで4.7が実際に安いと判断するのは難しいと感じる。もちろん結果として高くなることも安くなることもありうるが、この資料だけでは実使用の判断にはあまり役立たないと思う

    • 実使用に近いデータとしては、Artificial Analysisベンチマークが、4.6 maxは1億6千万トークン、4.7 maxは1億トークン程度を使ったと報告していた。コスト分解を見ると入力コストは800ドル増えたが、出力コストは1400ドル減った。もちろん、入力と出力の相殺がどの程度起きるかはユースケースによって大きく異なるだろうし、effortが低いほど差も小さくなりそうだ
    • なぜ役に立たないのかよく分からない。4.7の入力トークン価格はそのままで、同じプロンプトが今は入力基準でおよそ30%高くなったことは明らかに見える
    • その通り。自分も4.6で毎セッションをmax effortに切り替え始めてから、むしろトークン使用量が減ったのを見た。途中で思考が自己修正され、試行錯誤が減って、より少ないステップで作業が終わったからだ。一方4.7は、基本的な作業でも空回りすることが増えたように見えた。その代わり、長い文脈を長時間維持する能力は少し良くなった気もする
    • AI界隈は、どう見ても誰もが納得するような有用な比較がいつもない気がする
  • 当面はVSCode CopilotでOpus 4.5を引き続きメインで使うつもりだ。自分のワークフローではエージェントにかなり細かい指示を出すのだが、たいていのエージェントは必要以上にやりすぎる傾向がある。自分が使った中でOpus 4.5が最も優れていたのは、不完全なプロンプトでも自分の望む範囲を読み取って、本当に必要な分だけやろうとする傾向だった。4.6はより時間がかかり、考え込みすぎて、変更範囲も広がったし、上位GPTも似た問題があった。Sonnetのような他モデルは、粗めの指示から自分の意図を読み取る能力でOpusに及ばなかった。なので実験はやめて4.5だけを使い続けていたし、高価でもそれだけの価値はあると感じていた。ところが今度は4.7がVSCode Copilotで4.5と4.6の両方を置き換え、しかも7.5倍のmodifierまで付くというので、自分としては遅くて高い方向に進んでいるように見え、むしろ後退に感じる

    • もうSonnetを使えばいいのではないかと思う
    • 4.7が4.5と4.6の両方を置き換えるというのは、つまり本当に4.5が消えるという意味なのか気になった。自分も4.5に落ち着いていたので、それが事実ならかなり残念だ
  • ますます、LLMをただスケーリングするだけでホワイトカラー業務を全面的に置き換えられると考えるのは、素朴な仮定に思えてきた。attentionメカニズムやHopfield networkは人間の脳の一部しかモデル化していないように見えるし、最近あふれているagentic memoryの補強策こそ、現在のSOTA transformerだけでは十分でないことの証左に思える。テキスト領域に限っても限界が見えている気がするし、自分はYann LeCun的な主張を繰り返しているだけかもしれない

    • たぶん本当にその主張を繰り返しているのかもしれない。transformerが人間の脳の一部にしか似ていないというsmall subset論は、神経生物学的にも、実際のLLMの性能を見ても説得力が弱いと思う。transformerはLLMだけでなく、動画、音声、SLAM、VLAなど広範な領域で使われる非常に汎用的で表現力の高い構造だ。人間の脳を1対1で複製していないからといって、機能的に同等の知能に到達できないことを意味するわけではない。人間の脳は進化によって生まれた実装方式の一つにすぎないと思う。LeCunの言うLLMにはできないという主張も、経験的には繰り返し崩されている。LLMに不利になるよう設計されたARC-AGI-3のようなベンチマークでも、今のところLLMより優れていると言えるAI系統は見ていない
    • 自分はスケーリングだけでは、ほぼ天井に来ていると感じる。ただし効率はまだ改善できるし、周辺ツールやharnessは今後も発展し続けると思う
    • テキストに限っても疑問は残る。なぜまだ小説一冊をきちんと書けないのか不思議だ。基準を下げて中編くらいで考えても、Death in VeniceCandideThe MetamorphosisBreakfast at Tiffany'sのような作品レベルには達していない感じがする。学習コーパスには本が大量に含まれていたはずで、これは単に誰かがトークンコスト数十万ドルをまだ投じていないだけの問題なのか気になる
  • 昨日、Opus 4.7で単一ページのWebサイトのベストプラクティスを整理しようとしたのだが、4回ほどのプロンプトで1日の上限を超えた。さらに7回ほど続けたところ、週次上限まで超えてしまった。HTML/CSS/JS全体でも300行に満たないコードだったのに、使用量上限がこんなに早く尽きるのを見てかなり衝撃だった

    • 自分はこういうことが起きそうで、まだClaudeを使っていない。エンタープライズ契約だと請求額だけが膨らみそうだし、かといってVPが全社員に今すぐ移行通知を出すのも簡単ではなさそうだ。個人契約の利用者が先に離れていけば、データセンター使用量は減って収益性は上がるかもしれないとも思う
    • reasoning effortを何に設定していたのか気になる。今のMaxはトークンをずっと多く使い、ほとんどのユースケースには推奨されていないと理解している。新しいデフォルトのxhighも、以前のデフォルトmediumより多く消費する
    • どのプランなのか気になる。Proならあり得ると思うが、Maxプランでその程度なら少し驚くかもしれない
    • Claudeのサブスクリプションを使っているのか気になる。自分の知る限り、サブスク版Claudeはそんな動き方をしない
  • タイトルは4.7から4.6ではなく、4.6 to 4.7のほうが正しいように思う

    • 全面的に同意する
    • 左から右に読む人間にとっても、Opus 4.6 to 4.7のほうがずっと自然に見える
  • Artificial Analysisの説明によると、Opus 4.7はAdaptive Reasoning、Max Effort条件でIntelligence Indexを回すのに約4,406ドルかかり、4.6の約4,970ドルより約11%安かった。スコアは4点高く、この差は新しいtokenizerを考慮しても出力トークン使用量が減ったためだという。ただしcached inputの割引はまだこの計算に反映されておらず、まもなくコスト計算に含める予定だとしている

  • 自分の印象では、会話品質は予想外に良くなっていた。より自己批判的で、提案も常に批判的に吟味し、デフォルトの選択も概ねより良く感じる。ここにいる他の人たちほど各種harnessを使い込んではいないので差が目立ちにくいだけかもしれないが、準備不足のユーザーほど、むしろ価値は大きいのではないかと思う。最近のレビューの流れを振り返ったり、製品議論を追ったりする程度の基本作業だけでも、4.6は有用だがうっかりfoot-gunになりやすかったのに対し、4.7はチームのシニアメンバーのように振る舞う可能性がより高く見える