13 ポイント 投稿者 xguru 2026-02-08 | 3件のコメント | WhatsAppで共有
  • 同じ Opus 4.6 モデルを使用しつつ、API 構成を変更して レイテンシを最小化
  • 高速な反復、ライブデバッグなど、時間に敏感な 対話型タスクに最適化
  • CLI または VS Code 拡張で /fast を入力して オン・オフを切り替え、またはユーザー設定ファイルに "fastMode": true と記述して 常時有効化
  • 有効化すると 自動的に Opus 4.6 に切り替わり、ステータスメッセージと アイコンが表示
  • Fast Mode は 標準の Opus 4.6 よりトークン単価が上昇
    • 200K 未満のコンテキストでは入力 $30/MTok、出力 $150/MTok を適用(標準は入力 $5、出力 $25)
    • 200K 超のコンテキストでは入力 $60/MTok、出力 $225/MTok を適用(標準は入力 $10、出力 $37.5)
    • 2/16 までは 50% 割引を適用
  • Fast Mode 専用の 別個のレートリミットが適用され、上限超過またはクレジット消尽時には 標準モードへ自動フォールバック
  • Fast Mode は 研究プレビューとして提供され、機能・価格は変更される可能性あり

3件のコメント

 
GN⁺ 2026-02-09
Hacker Newsの反応
  • 速度は2.5倍になったが、価格は6倍 かなり高いプレミアムだ。特に Gemini 3 Pro は Opus 4.6 と比べてトークン毎秒速度が1.8倍なのに、価格は0.45倍程度だ。 ただしコーディング性能は劣り、Gemini CLI にはまだ Claude Code ほどの エージェント能力 はない。

    • トークン単価が6倍なら、秒あたりでは15倍の価格になる。しかもこれはAPI基準で、サブスクリプション料金はもっと安い。 結局、大口顧客(whale) に素早くお金を使わせる興味深い仕組みだ。
    • Gemini はフロントエンド作業にはかなり良い。
    • Gemini CLI の代わりに OpenCode を使うこともできる。
  • 遅いモード(slow-mode)があるといい。低コストの spot GPU でジョブを予約実行できる機能だ。 私はよく昼休みや退勤前にプロセスを走らせるが、すぐに実行される必要はない。空いているGPUで安く回せれば十分だ。

    • Batches API は標準API比で50%料金で実行できる。
    • OpenAI も以前、似たような バッチ処理機能 を提供していた。
    • 私も同感だ。夜間に50%料金で回せるなら良い。ただ、Claude Code にはまだ統合されていない。
    • すでに割引済みの MAXプラン は事実上スローモードとして動作している。
    • 時間に敏感でないなら、GPUの代わりにCPU/RAMで回すのも一つの方法だ。
  • このモードではサブスクリプションの残り使用量を活用できない。 Fast mode の使用量は常に別料金で課金され、プランに含まれたトークンとは無関係に最初のトークンから 追加料金 が発生する。 現在は $50 の無料追加利用キャンペーンがある。

    • 結局ほとんど役に立たない。Claude Max を使っていても TDD 中は使用量管理が必要だ。 ccusage ツールで見ると API 基準で1日 $200 まで行くことがある。6倍料金なら $50 は20分で消える。
  • 私にはこの機能はあまり役に立たなそうだ。 ボトルネックはモデルではなく、LLM が生成したコードを自分が理解する 速度 だからだ。

    • 実際のコードを細かく見ない人も多い。今の世の中は本当に興味深い。
    • 十分に速くなればコードを読むより質問を投げる形で使うだろうが、まだその段階ではない。
    • コードを「雰囲気」で書く人は、理解より結果に集中する。
    • テストハーネスと検証手順をしっかり整えておけば、コードを直接見なくても信頼できる。
  • 「Fast mode をいつ使うか決める」ドキュメントを見ると、

    • 長時間実行エージェントやバックグラウンド作業は通常モード
    • 人が介在するシナリオ は Fast mode という使い分けを意図しているようだ。ただ、料金体系が合理的かどうかは疑問だ。
    • Opus の API 料金もすでに高いので、結局は 高価格帯サービス のままになりそうだ。 コストパフォーマンスを重視する人は並列実行で解決するだろう。
  • 私の普段のワークフローは計画段階と実装段階に分かれている。 Fast mode は計画段階で最も有用になりそうだ。 「コンテキスト初期化後に Fast mode で実行」だけでなく、 「コンテキスト初期化後に通常速度で実行」というオプションもほしい。 探索型エージェントは遅くても構わないが、計画を素早く反復できればはるかに効率的だ。

  • 通常の Pro アカウントは事実上 スローモード だ。 私は今 Kimi2.5 CLI をテスト中だが、速度も速く、Web インターフェースも提供されているので VPN 環境でもリモートで使える。

  • もう Hacker News は単なる Claude のマーケティングブログ に CNAME してもいいのでは。

    • そうすると simonw の自己宣伝投稿を見逃すことになる。
    • 実際には OpenAI 関連の投稿のほうがずっと多い。名前をいっそ AINews に変えたほうがいいかもしれない。
  • 速度向上の理由が気になる。単なる 優先順位調整 だけでは難しそうだ。 新しいハードウェア(Groq、Cerebras など)かもしれない。一部クラウドでしか提供されていない点を見ると、その可能性はある。 今後 LLM 提供企業が「速度 vs 知能」を分けて価格設定するようになるのかも気になる。

    • GPU で バッチ処理とマルチストリーム を増やしてトークン処理量を上げる方式だ。 バッチを大きくすると並列性は増すが、個々のリクエスト速度は遅くなる。 SemiAnalysis InferenceMAX™ グラフ を見ると、GPUあたり処理量とトークン速度の間には パレート曲線 が存在する。
    • ハードウェアのアップグレードやトラフィック優先順位の調整以外にも、バッチウィンドウ を縮めたり KV キャッシュを GPU に保持したりするなど、さまざまな調整が可能だ。
    • 単に待ち行列を飛ばす 優先度ベースのモデル かもしれない。そちらのほうがお金を稼ぎやすいからだ。
    • まず社内向けに実装した可能性もある。実際には単純な優先順位調整だが、外部顧客は多くないと見込んでいたのかもしれない。
    • あるいは Nvidia GB300(Blackwell) のような新型GPUを使っている可能性もある。
  • 「Claude が C コンパイラを作った」という投稿を見て、Anthropic や OpenAI のような研究所の 社内推論速度 が気になった。 推論速度が速いほどソフトウェア市場を制しやすい。 Anthropic が2.5倍速度を公開したなら、社内では5〜10倍速いモードを使っているのかもしれない。 エージェント同士が交渉する未来では、最も速い計算力 を持つ者が勝者になるだろう。

    • Anthropic は、すでに社内で使っていた2.5倍モードを 公式APIとして公開 したと明かしている。 一部サーバーは個々のリクエスト速度を上げるために全体処理量を犠牲にしている可能性がある。 おそらく 新世代のハードウェア 上で動いているのかもしれない。
    • 「10倍性能を隠している」というのはありえない。SaaS企業が市場競争の最中にそんな余裕はない。 現実的には 並列化で2.5倍の速度向上 を得ただけだろう。
    • 基本速度を意図的に遅くして Fast mode に課金させる、一種の 速度を人質に取るモデル にも見える。
 
kimjoin2 2026-02-09

「次のタスクは何がいいかな?」
一度で3.46ドルの決済が追加されて、サブスクモデルではカバーされないみたいですね。
少し前に50ドルくれたのは、これを使ってみろってことだった気もします(笑)

 
elbum 2026-02-08

これからはますますお金持ちだけが使うAIになっていきますね……