- Claude Haiku 4.5は小型モデルでありながら、Claude Sonnet 4級のコード性能を3分の1のコストと2倍以上の速度で提供
- SWE-bench Verifiedなど実際の開発ベンチマークで、前世代モデルを上回るAIコーディングの効率性と応答性を示す
- Sonnet 4.5と連携してマルチエージェント構成や複雑な問題の分割実行が可能で、リアルタイム作業や低遅延環境に適している
- リアルタイムチャットボット、カスタマーサポート、ペアプログラミングなどで高い知能と速度の利点を体験できる
- 安全性評価の結果、Anthropicのモデルの中で最も高い整合性レベルを示し、**AI Safety Level 2(ASL-2)**基準で公開
- 入力/出力100万トークンあたり $1/$5
紹介
- Claude Haiku 4.5はAnthropicの最新小型モデルラインアップで、すべてのユーザー向けに性能・速度・コスト効率のバランスを取ったモデル
- Claude Sonnet 4と同等に近いコーディング能力を示しながら、コストは3分の1、速度は2倍以上高速
- 特定の作業(コンピュータ利用など)ではSonnet 4を上回る性能も示す
- 特にClaude for ChromeやClaude Codeのようなリアルタイムツールで、遅延のないAI補助作業環境を提供
主な特徴とユースケース
- リアルタイム・低遅延作業に適しており、チャットボット、カスタマーサービス、ペアプログラミングなどで高い効率性を示す
- Claude Code利用者にとっては、マルチエージェントプロジェクトや高速プロトタイピングなどで素早い応答性を発揮し、理想的な性能を提供
- 現時点ではSonnet 4.5が依然として最上位モデルだが、Haiku 4.5は近い性能と高いコスト効率を提供
- 2つのモデルを併用することもでき、たとえばSonnet 4.5が複雑な問題を分解し、複数のHaiku 4.5が並列で下位タスクを処理できる
- Claude Haiku 4.5は本日から世界中で利用可能で、開発者はClaude APIで
claude-haiku-4-5としてすぐに利用可能
- 価格は入力/出力100万トークンあたり**$1/$5**で提供
ベンチマークとユーザー評価
- Haiku 4.5はAnthropicがリリースした中でも最も強力なモデルの1つ
- Augment, Warp, Gammaなどさまざまな企業が、実運用テストでSonnet 4.5比90%以上のコード品質を確認したと言及
- エージェントコーディング、サブエージェントの調整、コンピュータ利用タスクなどで飛躍的な進展を示し、開発体験の即時性を最大化
- 従来は品質・速度・コストの間にトレードオフがあったが、Haiku 4.5は速度とコスト効率の両立を実現
- 知能とリアルタイム応答性の両方を提供し、新たなAIアプリケーションの可能性を開く
- 6か月前なら最先端級だった性能が、今ではより安価かつ高速に実現されている
- 複雑なワークフローを高速かつ安定して処理し、リアルタイムの自己修正も可能
- スライド用テキスト生成など特定の指示処理で、既存モデルよりはるかに高い実行率を記録
- GitHub Copilotなどと連携した場合、Sonnet 4に近いコード品質をより高速に提供
安全性評価
- さまざまな安全性・整合性評価の結果、問題行動の比率が低く、前バージョン(Claude Haiku 3.5)比で整合性も向上
- Sonnet 4.5/Opus 4.1よりも低い不整合行動率を示し、Anthropicが作成したモデルの中で最も安全なモデルと評価
- 化学・生物・放射能・核(CBRN)リスクも非常に低いと評価され、ASL-2標準で公開
- より厳しい制限が適用されるASL-3(Sonnet 4.5、Opus 4.1)と比べて、より自由に活用可能
追加情報
- Claude Haiku 4.5はClaude Code、Anthropicアプリなどですぐに利用可能
- 効率的な処理により、利用量制限の中でもプレミアムモデル級の性能を享受できる
- API, Amazon Bedrock, Google Cloud Vertex AIなどで、Haiku 3.5やSonnet 4の代替として低コストで選択可能
- 技術的詳細や評価結果などは公式の**システムカード、モデル紹介ページ、ドキュメント**で確認できる
2件のコメント
claude codeで/model haikuと入力すると使えます。sonnet より速いうえに出力も良く、かなり使いやすいですね。Hacker Newsの意見
少し怪しげに見える自転車に乗っている、かわいいペリカンの絵を共有している リンク
Six months in LLMs,
ペリカン自転車タグの説明,
ベンチマーク方法論
Shitaki Mushroom riding a rowboat
プロンプト: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69秒
そしてGrok 4 Fastはペリカン+自転車スタイルには悪くないが、他の要求には弱い
Grokサンプル, プロンプト: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5秒
最後にGPT-5の結果: サンプル, プロンプト: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5秒
主観的ではあるが、Haikuのキノコの斑点がとても印象的
そして公開ベンチマークと非公式テストシナリオの間の性能差がAnthropicモデルでは最も小さい
しばしばAnthropicモデルはオープンベンチマークよりむしろ良い結果を見せる
HaikuのTime-to-Firstもかなりの利点
かなり初期段階のテストにもかかわらず、結果は相当に印象的
GPT-5と違ってコード変更に不要なコードセクションをあまり含めず、より正確に変えてくれる
そのおかげで実環境ではHaiku 4.5は見かけ上のコスト上昇にもかかわらず、利用効率の面ではより安価になる可能性がある
問題はブランド力
Haiku 4.5がSonnet 4と似た品質かもしれないとしても、小型モデルへの認識と最近の一部性能低下のため、Haiku 4.5をSonnet 4.5の代わりに選ぶのは簡単ではないだろう
Haiku 3、3.5、4.5が概ね同じパラメータ帯なのか気になるし、すべてのモデル情報を透明に公開してほしい
そのため大半は大きいモデルを使いたがる心理があるが、実際にはGPT-5が性能対価格で最も印象的だと思う
参考価格:
Haiku 3: 入力 $0.25/M, 出力 $1.25/M
Haiku 4.5: 入力 $1.00/M, 出力 $5.00/M
GPT-5: 入力 $1.25/M, 出力 $10.00/M
GPT-5-mini: 入力 $0.25/M, 出力 $2.00/M
GPT-5-nano: 入力 $0.05/M, 出力 $0.40/M
GLM-4.6: 入力 $0.60/M, 出力 $2.20/M
平均220 token/secで、類似モデルと比べてほぼ2倍水準
この速度が安定して維持されるなら非常に大きな価値
ちなみにGemini 2.5 Flash Liteと似た速度
Groq、Cerebrasなども1000 token/secまで出るが、比較可能なモデルではない
Anthropicは自分が行ったパーソナルベンチマークでは常にオープンベンチマークより良い結果を出しており、そのため期待が大きい
速度、性能、価格が今後も維持されるなら、ほとんどのコーディング作業でHaiku 4.5は素晴らしい選択肢
Sonnetは特定の状況でだけ使うことになりそう
過去のClaudeモデルは長いチェーン作業(7分超)では性能低下があったが、Haiku 4.5もそうなら欠点
ただしまだ長時間作業のテストはできていない
問題は、Claude CodeでHaiku 4.5とSonnet 4.5の使用量が同じように集計されていること(価格差が大きいのに)
サポートページの更新もされていない サポート文書
こうした情報はローンチ当日に必ず告知されていてほしい
このようなツーリング、テスト、告知システムなどはAnthropicモデルの優れた性能に影を落としている
今回ついに出たので、自分のすべてのボット(いやエージェント)にアップグレードを適用中
最近のモデルや機能の比較はあまりにも面倒で煩わしい
LLMエコシステムごとに制限が異なるので行ったり来たりしなければならず、Claude CodeとCodexにそれぞれ月$20ずつ払っている
Cursorも使ってはいるが、内部的にどのモデルが使われているかは気にしていない
ただ一貫して統合されたツールが欲しい
バックエンドで何が起きているかを自分が気にしなくても、自動でより良くなってほしい
まるでTLSサーバーのように、CLI/Neovim/IDEのどこでも統合されていてほしい
でもまた例示主導型のほうが良いとも言うし、それぞれ長所短所はあるにしても業界標準のコンセンサスがないので良い例を見つけるのも難しい
以前誰かが返信で「bug-driven development」と言っていて刺さったが、結局どんな方式でも使って結果を出し、その後でバグやエラーを見て直す形になっている
だからGitHub Copilot Pro+を使っている
新しいモデルが出たらすぐ選べる(Claude Haiku 4.5もある)
プレミアム利用量を使い切ったことはなく、自分はヘビーユーザーではない
CLI版は試していないが興味はある
IntelliJプラグインが更新される前は、VS Codeでプロンプトを投げてまた戻ったりしていた
Web版の
Spacesもニッチな作業に便利個別LLMと比べてCopilotがどうかはよく分からないが、とにかく自分が望むときだけ出てきて、静かにうまく働いてくれれば十分
一方ではロックイン防止、もう一方ではツール切り替えの不便さを減らし、仮にロックインしても簡単に移行できるようにするため
Opusの未来が気になる
今後も「怪物」レベルの性能と価格で行くのか、それとも4から4.5へのジャンプが緩やかになるのか気になる
もちろんバージョン番号がマーケティング効果しかなく、実際に意味があるのかは分からない
業界を追っているだけで実際に作ったり開発している人間ではないが、大きいモデルで小さいモデルをファインチューニングするのは業界慣行
GPT-4 Turboが元のGPT-4よりはるかに速くて安い理由もこれしかない
OpenAIがreasoning tokenを隠すのも競合他社によるデータ学習を防ぐための戦略
おそらく大・中・小の3サイズモデルを継続して開発し、市場需要とモデル能力に合わせてリリース時期を決めているのだろう
実際にコードの文書化が必要な質問でHaikuとSonnetを比較してみた
Haikuは関数の出力自体をでっち上げて誤答し、Sonnetは正答した
Sonnetの結果: リンク
入力 $1、出力 $5 の料金はSonnet 4.5に比べれば安いが、今は非常に小さく高速なLLMが数多く出ているので、大規模エージェントコーディングではさらに安いモデルが重要
Sonnetは依然高価なのに多く使われているため、Haikuも品質さえ良ければ十分人気を集めるだろう
ほとんどすべてのオープンソース低価格モデルはここまで効果的なキャッシュが効かない
これは本当にすごいかもしれない
速度のほうがはるかに重要で、Haiku 4.5にSonnet 4.5より多く払ってもよいと思っている
回答を待つ時間がもったいなさすぎる
SWE Bench 73%超えなら自分には十分
Anthropic初の小型Reasoner製品だと理解しており、システムカード情報も添付している
システムカードPDF
(関連議論は こちら を参照)
Extended NYT Connections(関連性パズルベンチマーク)でHaiku 4.5は20.0点、Haiku 3.5は10.0点、Sonnet 3.7は19.2点、Sonnet 4.0は26.6点、Sonnet 4.5は46.1点を記録
フリーランス開発者としては、3倍速くなった応答速度だけでも十分に価値があると感じる
claude 4.5の代わりにこれへ切り替えれば、はるかに生産性が上がりそうで期待している
こうした小型モデルの用途は何なのだろう? 速度? オンデバイス移行の目的? API料金の軽減? ほとんどがClaudeのサブスクリプションを使っているなら、あまり用途がないのではと疑問に思う
うちの会社でも複雑な社内コード作業を除けば、ほぼすべて小型モデルで処理している
ユーザー向け環境、ワークフロー(抽出、変換、翻訳、マージ、評価など)はmini/nanoモデルで全部こなせる
メインセッションのコンテキストウィンドウ節約とトークン処理量増加の効果が大きい
計画を立てて大きいモデルに渡す前に、高速で反復実験できる
OpenRouterランキングリンク
もちろんGemini 2.5 Proも予想より順位が高い