OpenAI、Broadcomと共同開発した初の独自推論チップ Jalapeño を公開
(techcrunch.com)- Jalapeño(ハラペーニョ) は LLM 推論に特化したアクセラレータであり、Broadcomと共同で構築するマルチ世代コンピューティングプラットフォームの最初の成果物
- 設計着手から製造テープアウトまでわずか9か月で完了し、高性能先端半導体分野で史上最速級の ASIC 開発サイクルとみられる
- 初期テストでは一般的な AI GPU と比べて約50%のコスト削減、ワット当たり性能も現行最先端を大きく上回る
- チップアーキテクチャからカーネル、メモリ、ネットワーキングまで自社で設計するフルスタック戦略の一環で、Nvidia GPU 依存の縮小と、ソフトウェア企業を超えたAI インフラ事業者への拡大を狙う
- 2026年末から Microsoft などのパートナーとギガワット規模のデータセンターに配備予定で、1兆ドル規模の IPO を前に収益性の証明が求められる中でその意味が際立つ
Jalapeño チップ公開
- 水曜日、OpenAI と Broadcom(NASDAQ: AVGO)が OpenAI 初のインテリジェンス・プロセッサ(Intelligence Processor) Jalapeño(ハラペーニョ)を公開
- LLM 推論の未来を見据えて設計されたアクセラレータで、両社が共同で構築するマルチ世代コンピューティングプラットフォーム初の AI アクセラレータ
- Broadcom 会長兼 CEO の Hock Tan と社長の Charlie Kawwas が、OpenAI CEO の Sam Altman と社長 Greg Brockman にチップサンプルを直接手渡した
- 消費者向け製品を超えてAI インフラ事業者へ飛躍しようとする OpenAI 戦略の重要な一歩
チップ構造と性能
- Jalapeño は既存の AI ワークロード向けアクセラレータを改造した汎用チップではなく、現代のLLM 推論のための白紙状態(blank-slate)設計
- 特定の AI 作業に合わせて設計できるASICで、Nvidia GPU より柔軟性は低いがコストは安い
-
性能・効率
- 初期テストでは一般的な AI GPU と比べて約50%のコスト削減(Hock Tan のインタビュー)
- 最終性能は測定中だが、ワット当たり性能は現行最先端に比べて大幅に向上した水準
- データ移動を減らし、演算・メモリ・ネットワーキング資源のバランスを取ることで、実際の利用率を理論上の最大性能に近づけて実現
- 公開されたチップ画像では8つの HBM サイトと中央のコンピュートダイを確認
-
動作検証
- エンジニアリングサンプルが量産目標の周波数・電力で ML ワークロードを動作させており、これにはGPT‑5.3‑Codex‑Sparkも含まれる
- 詳細な技術報告書は今後数か月以内に公開予定
- Broadcom のシリコン実装とTomahawk ネットワーキングシリコンが大規模量産を支援
9か月でテープアウト、OpenAI モデルが加速
- 初期設計から製造テープアウトまでわずか9か月で共同開発され、高性能先端半導体では史上最速級の ASIC 開発サイクルとみられる
- 設計・最適化プロセスの一部で OpenAI の自社モデルを活用し、Brockman はモデルが開発を加速した度合いが「驚くほど」だったと述べた
- ユーザーに提供される同じモデルが、今後はモデルを動かすためのインフラ改善にも貢献する
- AI がエンジニアのより高速なチップ設計を支援すれば、業界全体のコンピューティングコスト削減と先端 AI へのアクセス拡大につながる可能性
マルチ世代プラットフォームとパートナー
- Jalapeño は 2026年末の初期配備を目標とし、その後数年にわたり拡張されるマルチ世代コンピューティングプラットフォームの第一段階
-
協力体制
- OpenAI — アクセラレータ設計、LLM の基盤に対する深い理解
- Broadcom — チップ実装、ネットワーキング・接続技術
- Celestica — ボード、ラック、システム統合の専門性
- 昨年 OpenAI と Broadcom は10ギガワット規模のコンピューティング向けカスタムチップ開発計画を発表し、今回その最初のチップを公開
-
爆発的な需要
- Broadcom CEO の Hock Tan は、2026年から Microsoft などのパートナーとギガワット規模のデータセンター配備を可能にすると述べ、2026年末の小規模プロトタイプ後に拡張する計画を明らかにした
- Brockman は「コンピューティングを十分な速さで確保できない」とし、Tan は6社の顧客需要が「文字どおり満たしきれない水準」であり、2027〜2028年も同等かそれ以上になるだろうと述べた
- OpenAI ハードウェアプログラム責任者の Richard Ho は、フロンティア AI モデルで最も重要なカーネル、メモリ移動、ネットワーキング、サービングパターンを中心にアーキテクチャを最適化したと説明
フルスタック戦略と競争構図
- OpenAI はフロンティアモデルの開発と製品構築を超え、その下のインフラまで自社で設計する — チップアーキテクチャ、カーネル、メモリシステム、ネットワーキング、スケジューリング、デプロイシステム、製品体験を含む
- これにより、Google(TPU)、Amazon(Trainium)、Microsoft(Azure Maia 100)のように独自シリコンを持つフルスタック AI 事業者の列に加わる
-
Nvidia 依存の縮小
- 「誰も Nvidia に従属したくはない」(Quilter Cheviot 技術リサーチ責任者 Ben Barringer)というように、チップ供給元の多様化が進む
- OpenAI は Nvidia の最大顧客の一社である一方、AMD(Instinct MI450 シリーズ)、Cerebras などとも供給契約を結んでいる
-
事業上の意味
- Nvidia が AI データセンターの中核部品供給によって世界最高価値企業となる中、AI インフラ市場の収益ポテンシャルが際立つ
- 1兆ドル規模の評価が取り沙汰されるIPOを前にした OpenAI にとって、推論コスト削減は莫大な学習コストの回収と収益性証明の鍵
- Broadcom 株は 2026年に入って上昇し、2022年末比で約7倍となっており、協業の恩恵が反映されている
先端 AI の大衆化
- 推論はAI が人と出会う接点であり、コスト・速度・安定性の改善は、そのまま ChatGPT のより高速な応答、待ち時間のない Codex 作業、より安価な API 製品、需要急増時でもより安定したアクセスにつながる
- 先端モデルをより多くの人が毎日使えるだけの利用可能性・安定性・低コストを実現することが、AI の大衆化の核心
- 学生、開発者、小規模事業者、研究者、企業など、学び、作り、難しい問題を解こうとするすべての人のために、インフラを有用な知能へと変換することに貢献する
1件のコメント
Hacker Newsのコメント
「OpenAIのモデルで設計と最適化を加速した」という部分をもっと詳しく見たい。
今の表現だけを見ると、Microsoft Officeや5KのLG Ultrafine 40インチモニターのおかげで開発が速くなったと言っているようなマーケティング文句に見える。
本当に示唆しているほど大きなことなら、OpenAIはもっと大きく強調していたはずだ。
「設計」が設計完了を意味するのか、「生産」が生産開始、つまりテープアウトを意味するのかが不明確だ。
RTLフリーズからテープアウトまで9か月なら、大規模で複雑な3nmチップとしてはかなり普通で、想定外の問題まで考慮すると少しも印象的ではないスケジュールだ。
逆に、コンセプト段階、つまりRTLなしでアーキテクチャのブロック図しかない状態からテープアウトまでなら驚異的なスケジュールで、実際にはその中間あたりの可能性が高い。
もっと具体的な発表なら、実際の技術マイルストーンとゲートを使うべきだ。
チップ設計ワークフローに大規模言語モデルを使うために、別途特化モデルが必須というわけではない。
設計検証も従来型のプログラミングが多く含まれるため、大規模言語モデルの助けを受けられる。
まったく無意味な話ではなく、今日オープンソースのチップ設計ソフトウェアをダウンロードすれば、大規模言語モデルが小さなチップを自分で始めるのにも役立つだろう。
この推論チップの難しい部分はBroadcomがすでに設計しており、OpenAIは望む仕様をBroadcomに伝えただけだった可能性が高い。
Google TPUともかなり似ていそうだ。
「第1世代アクセラレータが現在の最先端と比べてワット当たり性能を大幅に高める」とあるが、ここでの「大幅に」が何を意味するのか気になる。
Vera Rubinは今年末に大量出荷予定で、Blackwellより推論の電力効率が10倍高いと見込まれている[0]。
すでにテープアウトしていたとしても、バグ修正、チップ製造、HBM割り当て、ラック設計、インターコネクト、データセンター配備まで進めるには最低12か月、おそらくそれ以上かかる可能性が高い。
このチップがデータセンターに大量導入されるころには、Vera Rubin UltraやFeynmanと競合することになるかもしれない。
個人的には、OpenAIはこのプロジェクトに投資すべきではなかったと思う。
まだ早すぎるし、Anthropicのようにまずモデルに集中して勝ち、収益性が出てからこうしたプロジェクトをやるべきだった。
AIにはエネルギーという固い上限があるため、OpenAIにとってはリスクが大きい。
1GWあるなら最良のチップだけを導入すべきで、Nvidiaのチップのほうが優れているなら、このプロジェクトは数十億ドルの無駄遣いになる。
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
問題は、後者だけを意味する可能性がある文を前者のように聞こえる形で書いており、そのため信用しにくいことだ。
必ずしも革命的である必要はなく、AI支援設計がうまくはまり、カスタムASICを作る価値があったのかもしれない。
OpenAIの記事では抜けていたが、チップを製造するのはTSMCである可能性がほぼ確実に見える [1]。
Intelが担当したのかは確信が持てなかった。
BroadcomはGoogleのTPUハードウェアパートナーとなり、TSMCの生産能力をGoogleと共有しながら大金を稼ぎ、今はOpenAIにも同じことをしているようだ。
AIゴールドラッシュを活用する本当に賢いやり方だ。
ただ、その稼いだ金をVMWareやBitnamiのときのようにソフトウェア業界から金を絞り取ることに使わないでほしい。
重みがチップのROMの一部として入っている推論チップを見てみたい
重みごとに乗算器が1つあり、定数なので全体が単純な加算器の束に置き換わり、完全パイプライン化されたスループットはクロック当たり1トークンになり得る
そうなればシリコンの一片で数百万人のユーザーを同時に処理し、出力バスから毎秒5億トークンが出る可能性もある
欠点は、チップがとてつもなく大きくなってウェハ1枚まるごとになるだろうという点
ウェハレベルの欠陥は大きな問題ではないかもしれない。ニューラルネットワークは一部の重みが欠けたり間違っていたりしても持ちこたえる傾向がある
業界の進む速度が速いので、モデル重みから生産までを非常に速く走らせ、ウェハを50枚作って1年使い、モデルが古くなったら捨てる、という形になりそう
データ、ここでは乗算値が、プロセッサ、ここでは乗算回路の一部になる手法
「持ってきて処理する」という問題をアーキテクチャ的に完全に回避する
データが演算の起こる場所にあるので移動せず、レイテンシもない
この方式はfrontierモデルより小規模モデルに向いているように見える。最先端モデルは変化が速すぎる
説明したほど先まで行っているわけではなく、コアとRAMは非常に多いが、重みは依然としてソフトウェアでロードする必要があり、大規模モデルではチップ内へストリーミングしなければならない
それでもウェハ全体チップではある
多くの作業ではROMに重みを入れても問題ないかもしれない
ただ、重みごとに乗算器を1つ置くのが良いアイデアかどうかは確信がない
2ビット程度に量子化していれば可能かもしれないが、そうでなければ各乗算器や各行の近くに小さなROMを置き、遠くからデータを運ばずにN個の異なる行列演算を処理させるほうがよいかもしれない
もう1つの面白い構想は、DRAMにMACユニットの行を取り付けてDRAM行をベクトルとして使うこと
行サイズが64Kbitなら8ビット重み基準で8K個で、重みと計算を同じチップ上に保持できる
ただし、1チップに十分な数の乗算器を入れられるかは分からない
シストリックアレイなら数万~数十万個がそれぞれクロック当たり1演算を実行できる
チップレベルでは、まだ解ける効率改善がものすごく多く残っていそうで興味深い
Taalasをどう見ているのか気になる
LLMモデルを実際にシリコンに焼き込み、微調整用のオンボードメモリを一部持たせるという
コストとレイテンシで大きな利得を主張している
とても速いデモはhttps://chatjimmy.ai/で見られる
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
だからGoogleは10年以上前にTPUを作り始めた
Timnit GebruがLLMの環境影響を計算する際にGPUを基準にしてTPU効率を無視した論文を巡って、GoogleがGebruを解雇したという論争を思い出す
その大きな効率格差のせいでJeff Deanがかなり怒っていたように見えた
そうなると販売は極めて難しくなる
チップに永遠に変わらない単一モデルを入れるという発想は好きではない
重みに書き換え可能なROMを使うと、シリコンがどれだけ高くなるのか気になる
そうすれば設計対象モデルの微調整が可能になり、モデルが古くなるという懸念を和らげられる
コーディングエージェントでは意味のある改善であり、ロボティクスでは完全な革命になり得る
8Bモデルは汎用用途では有用ではないが、特定用途ではものすごい知能を提供できる
NvidiaのTesla/Waymoの競合は7B LLMと2B拡散モデルだが、それをその速度で回せるなら既存解法よりコストを一桁下げられる可能性がある
今でもその時点に近いと主張することはできる
AWSのようなハイパースケーラーは、数年間有効なモデルをサービスするのにこうしたチップをうまく活用するだろう
ただ今は、特にDeepseek/Kimi/GLMのようなオープンウェイトモデルで、数か月ごとにモデル品質が大きく向上している
それまでは、汎用ハードウェアと比べてこの方式がコスト効率的になる道筋はあまり見えない
また、こうしたものの小型版がモバイルハードウェアに入って、非常に高速かつ高効率なオンデバイスLLMを提供するようになる気もする
かなり大きな動き
GoogleとTPUはもう7世代目あたりまで来ているように見えるし、LPUやCerebrasのWafer Scale Engineのような派生的な試みまで考えると、はるかに先見の明があったように見える
ただ第一印象では、このチップは学習ではなく推論向けを狙っているようで、それも興味深い選択だ
一方で推論は継続的に発生するコストであり、時間が経つほどはるかに多くの資源を消費するので、これをより効率的にすることに集中するほうが長期的には得になる
Nvidiaは汎用学習チップの王者だが、推論は特化できる
コンテキストウィンドウが小さく、モデルも古い
それでも改善されて、GPT 5.5を毎秒1000トークンで使えるようになるといいのだが
表現は曖昧だが、TPUも似たような主張をしている
Googleの「我々には堀がない」というメモは今でも正しいと思う。知らなければ https://newsletter.semianalysis.com/p/google-we-have-no-moat... 参照
今の流れは、60〜90年代にIBM、DEC、Cray、Sunが繰り広げたハードウェア競争により近くなっているように思える
歴史は繰り返さないが韻を踏むとも言うし、こうした取り組みも同じ軌跡をたどりそうだ
AIの進歩の速さと、AIがより速くより良いAIを作るのを助けている状況を見ると、こうしたハードウェアが意味のある投資回収をする前に旧式化するのではないかとずっと気になっている
すでに量子化やオフロードによって巨大なAIモデルをより少ない資源で動かせるようになっているが、それはまだ始まりにすぎない
いつか、もしかするとそう遠くないうちに、200B級の巨大LLMを5年前のDellデスクトップで十分に動かせるようにするブレークスルーが出るかもしれない
狂った話に聞こえるかもしれないが、初期のハードディスク容量を見てほしい
IBM 350は直径24インチのプラッタ50枚を持つディスクで3.5Mbを保存し、現在価値で3万5000ドルでリースされていた
https://www.computerhistory.org/storageengine/first-commerci...
これをマルチテラバイトSSDと比較し、同じ改善を現在のLLMアーキテクチャと実行方式に当てはめてみてほしい
AIの助けまで加われば、ほどなく飛躍が起きて、現在最先端のNvidiaカードで埋め尽くされたデータセンターがほぼ一夜にして時代遅れになる可能性もある
IBM 350は70年前に商用化され、今日誰かがマルチTB SSDと比較できるようになるまで70年かかった
しかもムーアの法則が今後数十年にわたってLLMにも必ず当てはまる保証はない
より大きなモデルが常によいのなら、実際そう見えるので、常に高性能ハードウェアが必要になる
TPUはあるが主にデータセンター向けで、GPUはもともとグラフィックス用途のものを適応させたものだ
データセンター需要が一段落すれば、イノベーションが本格化するかもしれない
ここであまり議論されていない点がある
BroadcomのCEOであるHock Tanはインタビューで、このアクセラレータはこれまでの一般的なAIグラフィック処理装置と比べて約50%のコスト削減を示していると述べた [0]
情勢の変化があまりに速く、まだ手の届く低い果実も多いので、どのベンダーが堀を持つのか、あるいは投資を回収できるのかを論じることにはあまり意味がないように見える
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
Nvidiaが今売っているチップよりはるかに古いチップを指している可能性もある
「2026年末の初期展開を目標とし、その後数年かけて拡大する」のであれば、IPO後に将来の約束としてIPO営業資料で大きく扱われそうだ
IPO前の発表は何であれ懐疑的に見ている
詐欺でも驚かない気がする
BroadcomとGoogleはもちろんすでに上場している
Microsoft、Google、Amazonもこうしたことをやっているが、彼らはチップをホストするハイパースケールデータセンターインフラも持っている
チップを設計してテープアウトすることと、パッケージング、冷却、展開、電力供給、フリート管理は完全に別のスタックだ
その部分をどこから持ってくるのか気になる
更新: Twitterで誰かがMicrosoftとOracleに50:50でホストされると言っていた
以前、Opus 4.5にVerilogベースのLLM推論エンジンを設計させ、ファームウェアと自動検証まで含めたことがある: https://github.com/cpldcpu/smollm.c
もちろん最適にはほど遠いが、抽象化レベルを下げて実装まで落とし込むやり方が非常に強力だということは確認できた
Tang Nano 9kが1台余っているが、Claudeにただの雰囲気コーディングで解決策を作らせる自信はなく、最低限の基礎理解は持っておきたい