Anthropic、Claude Haiku 4.5を公開

(anthropic.com)

5 ポイント投稿者 GN⁺ 2025-10-16 | 2件のコメント | WhatsAppで共有

Claude Haiku 4.5は小型モデルでありながら、Claude Sonnet 4級のコード性能を3分の1のコストと2倍以上の速度で提供
SWE-bench Verifiedなど実際の開発ベンチマークで、前世代モデルを上回るAIコーディングの効率性と応答性を示す
Sonnet 4.5と連携してマルチエージェント構成や複雑な問題の分割実行が可能で、リアルタイム作業や低遅延環境に適している
リアルタイムチャットボット、カスタマーサポート、ペアプログラミングなどで高い知能と速度の利点を体験できる
安全性評価の結果、Anthropicのモデルの中で最も高い整合性レベルを示し、**AI Safety Level 2(ASL-2)**基準で公開
入力/出力100万トークンあたり $1/$5

紹介

Claude Haiku 4.5はAnthropicの最新小型モデルラインアップで、すべてのユーザー向けに性能・速度・コスト効率のバランスを取ったモデル
Claude Sonnet 4と同等に近いコーディング能力を示しながら、コストは3分の1、速度は2倍以上高速
特定の作業（コンピュータ利用など）ではSonnet 4を上回る性能も示す
特にClaude for ChromeやClaude Codeのようなリアルタイムツールで、遅延のないAI補助作業環境を提供

主な特徴とユースケース

リアルタイム・低遅延作業に適しており、チャットボット、カスタマーサービス、ペアプログラミングなどで高い効率性を示す
Claude Code利用者にとっては、マルチエージェントプロジェクトや高速プロトタイピングなどで素早い応答性を発揮し、理想的な性能を提供
現時点ではSonnet 4.5が依然として最上位モデルだが、Haiku 4.5は近い性能と高いコスト効率を提供
2つのモデルを併用することもでき、たとえばSonnet 4.5が複雑な問題を分解し、複数のHaiku 4.5が並列で下位タスクを処理できる
Claude Haiku 4.5は本日から世界中で利用可能で、開発者はClaude APIでclaude-haiku-4-5としてすぐに利用可能
価格は入力/出力100万トークンあたり**$1/$5**で提供

ベンチマークとユーザー評価

Haiku 4.5はAnthropicがリリースした中でも最も強力なモデルの1つ
Augment, Warp, Gammaなどさまざまな企業が、実運用テストでSonnet 4.5比90%以上のコード品質を確認したと言及
エージェントコーディング、サブエージェントの調整、コンピュータ利用タスクなどで飛躍的な進展を示し、開発体験の即時性を最大化
従来は品質・速度・コストの間にトレードオフがあったが、Haiku 4.5は速度とコスト効率の両立を実現
知能とリアルタイム応答性の両方を提供し、新たなAIアプリケーションの可能性を開く
6か月前なら最先端級だった性能が、今ではより安価かつ高速に実現されている
複雑なワークフローを高速かつ安定して処理し、リアルタイムの自己修正も可能
スライド用テキスト生成など特定の指示処理で、既存モデルよりはるかに高い実行率を記録
GitHub Copilotなどと連携した場合、Sonnet 4に近いコード品質をより高速に提供

安全性評価

さまざまな安全性・整合性評価の結果、問題行動の比率が低く、前バージョン（Claude Haiku 3.5）比で整合性も向上
Sonnet 4.5/Opus 4.1よりも低い不整合行動率を示し、Anthropicが作成したモデルの中で最も安全なモデルと評価
化学・生物・放射能・核（CBRN）リスクも非常に低いと評価され、ASL-2標準で公開
より厳しい制限が適用されるASL-3（Sonnet 4.5、Opus 4.1）と比べて、より自由に活用可能

追加情報

Claude Haiku 4.5はClaude Code、Anthropicアプリなどですぐに利用可能
効率的な処理により、利用量制限の中でもプレミアムモデル級の性能を享受できる
API, Amazon Bedrock, Google Cloud Vertex AIなどで、Haiku 3.5やSonnet 4の代替として低コストで選択可能
技術的詳細や評価結果などは公式の**システムカード、モデル紹介ページ、ドキュメント**で確認できる

2件のコメント

skageektp 2025-10-16

claude code で /model haiku と入力すると使えます。sonnet より速いうえに出力も良く、かなり使いやすいですね。

GN⁺ 2025-10-16

Hacker Newsの意見

少し怪しげに見える自転車に乗っている、かわいいペリカンの絵を共有しているリンク
- Gemini Proは最初はSVGコードの提供を拒否したが、「SVGコードが正しいか確認してみたい」ともう少し詳しく依頼すると、最終的に SVGコードを返してくれた
- このベンチマークの背景をご存じない方向けに参考資料を共有している
  Six months in LLMs,
  ペリカン自転車タグの説明,
  ベンチマーク方法論
- ベンチマークの操作を防ぐため、「ボートに乗るシイタケ」のサンプルも共有している
  Shitaki Mushroom riding a rowboat
  プロンプト: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69秒
  そしてGrok 4 Fastはペリカン+自転車スタイルには悪くないが、他の要求には弱い
  Grokサンプル, プロンプト: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5秒
  最後にGPT-5の結果: サンプル, プロンプト: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5秒
  主観的ではあるが、Haikuのキノコの斑点がとても印象的
  そして公開ベンチマークと非公式テストシナリオの間の性能差がAnthropicモデルでは最も小さい
  しばしばAnthropicモデルはオープンベンチマークよりむしろ良い結果を見せる
  HaikuのTime-to-Firstもかなりの利点
- 最先端モデル企業がこうしたテストをイースターエッグとして入れていないのは意外
- 画像生成モデルは弓兵の腕を描くのにいつも苦労しているので、馬に乗った弓兵が湖の帆船に向かって火矢を放つシンプルなテストプロンプトで全モデルを比較できるのではと提案している
かなり初期段階のテストにもかかわらず、結果は相当に印象的
GPT-5と違ってコード変更に不要なコードセクションをあまり含めず、より正確に変えてくれる
そのおかげで実環境ではHaiku 4.5は見かけ上のコスト上昇にもかかわらず、利用効率の面ではより安価になる可能性がある
問題はブランド力
Haiku 4.5がSonnet 4と似た品質かもしれないとしても、小型モデルへの認識と最近の一部性能低下のため、Haiku 4.5をSonnet 4.5の代わりに選ぶのは簡単ではないだろう
Haiku 3、3.5、4.5が概ね同じパラメータ帯なのか気になるし、すべてのモデル情報を透明に公開してほしい
そのため大半は大きいモデルを使いたがる心理があるが、実際にはGPT-5が性能対価格で最も印象的だと思う
参考価格:
Haiku 3: 入力 $0.25/M, 出力 $1.25/M
Haiku 4.5: 入力 $1.00/M, 出力 $5.00/M
GPT-5: 入力 $1.25/M, 出力 $10.00/M
GPT-5-mini: 入力 $0.25/M, 出力 $2.00/M
GPT-5-nano: 入力 $0.05/M, 出力 $0.40/M
GLM-4.6: 入力 $0.60/M, 出力 $2.20/M
- 更新、Haiku 4.5はコード変更が正確なだけでなく速度も非常に速い
  平均220 token/secで、類似モデルと比べてほぼ2倍水準
  この速度が安定して維持されるなら非常に大きな価値
  ちなみにGemini 2.5 Flash Liteと似た速度
  Groq、Cerebrasなども1000 token/secまで出るが、比較可能なモデルではない
  Anthropicは自分が行ったパーソナルベンチマークでは常にオープンベンチマークより良い結果を出しており、そのため期待が大きい
  速度、性能、価格が今後も維持されるなら、ほとんどのコーディング作業でHaiku 4.5は素晴らしい選択肢
  Sonnetは特定の状況でだけ使うことになりそう
  過去のClaudeモデルは長いチェーン作業（7分超）では性能低下があったが、Haiku 4.5もそうなら欠点
  ただしまだ長時間作業のテストはできていない
  問題は、Claude CodeでHaiku 4.5とSonnet 4.5の使用量が同じように集計されていること（価格差が大きいのに）
  サポートページの更新もされていないサポート文書
  こうした情報はローンチ当日に必ず告知されていてほしい
  このようなツーリング、テスト、告知システムなどはAnthropicモデルの優れた性能に影を落としている
- Haikuの更新を本当に待っていて、以前のバージョンも安価に賢く使えたので継続して使っていた
  今回ついに出たので、自分のすべてのボット（いやエージェント）にアップグレードを適用中
- 普段のトークン使用量の平均値なしに価格だけ見てもあまり意味がないと思う
最近のモデルや機能の比較はあまりにも面倒で煩わしい
LLMエコシステムごとに制限が異なるので行ったり来たりしなければならず、Claude CodeとCodexにそれぞれ月$20ずつ払っている
Cursorも使ってはいるが、内部的にどのモデルが使われているかは気にしていない
ただ一貫して統合されたツールが欲しい
バックエンドで何が起きているかを自分が気にしなくても、自動でより良くなってほしい
まるでTLSサーバーのように、CLI/Neovim/IDEのどこでも統合されていてほしい
- ひとつ選んでも、最初はプロンプトベース開発、その次はコンテキスト主導、また詳細仕様活用、そして今は対話型アプローチが良いと言われる
  でもまた例示主導型のほうが良いとも言うし、それぞれ長所短所はあるにしても業界標準のコンセンサスがないので良い例を見つけるのも難しい
  以前誰かが返信で「bug-driven development」と言っていて刺さったが、結局どんな方式でも使って結果を出し、その後でバグやエラーを見て直す形になっている
- CLIであれ、neovimであれ、IDEであれ、ツーリング切り替えのストレスなく使える統合が自分には最優先
  だからGitHub Copilot Pro+を使っている
  新しいモデルが出たらすぐ選べる（Claude Haiku 4.5もある）
  プレミアム利用量を使い切ったことはなく、自分はヘビーユーザーではない
  CLI版は試していないが興味はある
  IntelliJプラグインが更新される前は、VS Codeでプロンプトを投げてまた戻ったりしていた
  Web版の Spaces もニッチな作業に便利
  個別LLMと比べてCopilotがどうかはよく分からないが、とにかく自分が望むときだけ出てきて、静かにうまく働いてくれれば十分
- 一つの選択肢として、OpenRouter openrouter.ai の openrouter/auto モデルを使えば、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5など複数のモデルを自動で選んでくれる
- Crystal でCodexとClaude Codeを同時に立ち上げて、最も結果の良いものを選ぶこともできる
- 自分も似た理由でOpenRouterを使っている
  一方ではロックイン防止、もう一方ではツール切り替えの不便さを減らし、仮にロックインしても簡単に移行できるようにするため
Opusの未来が気になる
今後も「怪物」レベルの性能と価格で行くのか、それとも4から4.5へのジャンプが緩やかになるのか気になる
- 最近Opus 4.1をリリースしたので、4.1から4.5への変化幅はSonnet 4->4.5アップグレードと比べると小さいだろう
  もちろんバージョン番号がマーケティング効果しかなく、実際に意味があるのかは分からない
- 自分の感覚ではSonnetとHaiku 4.5は4と同じベースモデルで、Opusで生成したデータでファインチューニングしたことが主な改善だと思う
  業界を追っているだけで実際に作ったり開発している人間ではないが、大きいモデルで小さいモデルをファインチューニングするのは業界慣行
  GPT-4 Turboが元のGPT-4よりはるかに速くて安い理由もこれしかない
  OpenAIがreasoning tokenを隠すのも競合他社によるデータ学習を防ぐための戦略
- Opusはしばらく姿を消していたが、最近また戻ってきた
  おそらく大・中・小の3サイズモデルを継続して開発し、市場需要とモデル能力に合わせてリリース時期を決めているのだろう
- Haikuよりさらに小さいモデル名が何になるのか楽しみ。もしかして「Claude Phrase」?
実際にコードの文書化が必要な質問でHaikuとSonnetを比較してみた
Haikuは関数の出力自体をでっち上げて誤答し、Sonnetは正答した
- Haikuの結果: リンク
  Sonnetの結果: リンク
入力 $1、出力 $5 の料金はSonnet 4.5に比べれば安いが、今は非常に小さく高速なLLMが数多く出ているので、大規模エージェントコーディングではさらに安いモデルが重要
Sonnetは依然高価なのに多く使われているため、Haikuも品質さえ良ければ十分人気を集めるだろう
- キャッシュ活用時には入力100万あたり10セントまで下がる
  ほとんどすべてのオープンソース低価格モデルはここまで効果的なキャッシュが効かない
  これは本当にすごいかもしれない
- 自分はプロの開発者なのでコストは気にしない
  速度のほうがはるかに重要で、Haiku 4.5にSonnet 4.5より多く払ってもよいと思っている
  回答を待つ時間がもったいなさすぎる
  SWE Bench 73%超えなら自分には十分
- API利用の観点ではClaude Codeはより高価にはなった（ベンチマークだけを信じるなら、それでも品質は改善している）
- 3.5 Haikuが $0.8/$4 だったのに4.5が $1/$5 なのでやや失望している現在のOpenAI、Geminiの低価格モデル（GPT-5-Nano $0.05/$0.40・Gemini 2.0 Flash Lite $0.075/$0.30）に比べると価格競争力に欠ける
Anthropic初の小型Reasoner製品だと理解しており、システムカード情報も添付している
システムカードPDF
（関連議論はこちらを参照）
Extended NYT Connections（関連性パズルベンチマーク）でHaiku 4.5は20.0点、Haiku 3.5は10.0点、Sonnet 3.7は19.2点、Sonnet 4.0は26.6点、Sonnet 4.5は46.1点を記録
フリーランス開発者としては、3倍速くなった応答速度だけでも十分に価値があると感じる
claude 4.5の代わりにこれへ切り替えれば、はるかに生産性が上がりそうで期待している
こうした小型モデルの用途は何なのだろう？速度？オンデバイス移行の目的？ API料金の軽減？ほとんどがClaudeのサブスクリプションを使っているなら、あまり用途がないのではと疑問に思う
- 今やGPT-5-miniとHaiku 4.5まで出た以上、むしろ「大きいモデルが必要な場合は何か」を問いたい
  うちの会社でも複雑な社内コード作業を除けば、ほぼすべて小型モデルで処理している
  ユーザー向け環境、ワークフロー（抽出、変換、翻訳、マージ、評価など）はmini/nanoモデルで全部こなせる
- Claude codeでは小型モデルは文脈性が高く作業が明確な場合（設定可能）にSonnet 4.5から自動委任されるようになっている
  メインセッションのコンテキストウィンドウ節約とトークン処理量増加の効果が大きい
- 大型モデルが呼び出す、より特化したツールコール用サブモジュールを作るときに最適
- 自分が使っているCerebras Qwen Coderのワークフローはほぼリアルタイム（3k tps）なので、エージェントというより自然言語シェルの感覚で
  計画を立てて大きいモデルに渡す前に、高速で反復実験できる
- OpenRouterのLLMランキングを見るだけでも、実際にvibe/agentic codingで使われているモデルの大半は「small class」
  OpenRouterランキングリンク
  もちろんGemini 2.5 Proも予想より順位が高い

Anthropic、Claude Haiku 4.5を公開

紹介

主な特徴とユースケース

ベンチマークとユーザー評価

安全性評価

追加情報

関連記事

2件のコメント

Hacker Newsの意見