OpenAI、Broadcomと共同開発した初の独自推論チップ Jalapeño を公開

(techcrunch.com)

3 ポイント投稿者 GN⁺ 3 시간 전 | 1件のコメント | WhatsAppで共有

Jalapeño（ハラペーニョ） は LLM 推論に特化したアクセラレータであり、Broadcomと共同で構築するマルチ世代コンピューティングプラットフォームの最初の成果物
設計着手から製造テープアウトまでわずか9か月で完了し、高性能先端半導体分野で史上最速級の ASIC 開発サイクルとみられる
初期テストでは一般的な AI GPU と比べて約50%のコスト削減、ワット当たり性能も現行最先端を大きく上回る
チップアーキテクチャからカーネル、メモリ、ネットワーキングまで自社で設計するフルスタック戦略の一環で、Nvidia GPU 依存の縮小と、ソフトウェア企業を超えたAI インフラ事業者への拡大を狙う
2026年末から Microsoft などのパートナーとギガワット規模のデータセンターに配備予定で、1兆ドル規模の IPO を前に収益性の証明が求められる中でその意味が際立つ

Jalapeño チップ公開

水曜日、OpenAI と Broadcom（NASDAQ: AVGO）が OpenAI 初のインテリジェンス・プロセッサ（Intelligence Processor） Jalapeño（ハラペーニョ）を公開
LLM 推論の未来を見据えて設計されたアクセラレータで、両社が共同で構築するマルチ世代コンピューティングプラットフォーム初の AI アクセラレータ
Broadcom 会長兼 CEO の Hock Tan と社長の Charlie Kawwas が、OpenAI CEO の Sam Altman と社長 Greg Brockman にチップサンプルを直接手渡した
消費者向け製品を超えてAI インフラ事業者へ飛躍しようとする OpenAI 戦略の重要な一歩

チップ構造と性能

Jalapeño は既存の AI ワークロード向けアクセラレータを改造した汎用チップではなく、現代のLLM 推論のための白紙状態（blank-slate）設計
特定の AI 作業に合わせて設計できるASICで、Nvidia GPU より柔軟性は低いがコストは安い
性能・効率
- 初期テストでは一般的な AI GPU と比べて約50%のコスト削減（Hock Tan のインタビュー）
- 最終性能は測定中だが、ワット当たり性能は現行最先端に比べて大幅に向上した水準
- データ移動を減らし、演算・メモリ・ネットワーキング資源のバランスを取ることで、実際の利用率を理論上の最大性能に近づけて実現
- 公開されたチップ画像では8つの HBM サイトと中央のコンピュートダイを確認
動作検証
- エンジニアリングサンプルが量産目標の周波数・電力で ML ワークロードを動作させており、これにはGPT‑5.3‑Codex‑Sparkも含まれる
- 詳細な技術報告書は今後数か月以内に公開予定
- Broadcom のシリコン実装とTomahawk ネットワーキングシリコンが大規模量産を支援

9か月でテープアウト、OpenAI モデルが加速

初期設計から製造テープアウトまでわずか9か月で共同開発され、高性能先端半導体では史上最速級の ASIC 開発サイクルとみられる
設計・最適化プロセスの一部で OpenAI の自社モデルを活用し、Brockman はモデルが開発を加速した度合いが「驚くほど」だったと述べた
ユーザーに提供される同じモデルが、今後はモデルを動かすためのインフラ改善にも貢献する
AI がエンジニアのより高速なチップ設計を支援すれば、業界全体のコンピューティングコスト削減と先端 AI へのアクセス拡大につながる可能性

マルチ世代プラットフォームとパートナー

Jalapeño は 2026年末の初期配備を目標とし、その後数年にわたり拡張されるマルチ世代コンピューティングプラットフォームの第一段階
協力体制
- OpenAI — アクセラレータ設計、LLM の基盤に対する深い理解
- Broadcom — チップ実装、ネットワーキング・接続技術
- Celestica — ボード、ラック、システム統合の専門性
昨年 OpenAI と Broadcom は10ギガワット規模のコンピューティング向けカスタムチップ開発計画を発表し、今回その最初のチップを公開
爆発的な需要
- Broadcom CEO の Hock Tan は、2026年から Microsoft などのパートナーとギガワット規模のデータセンター配備を可能にすると述べ、2026年末の小規模プロトタイプ後に拡張する計画を明らかにした
- Brockman は「コンピューティングを十分な速さで確保できない」とし、Tan は6社の顧客需要が「文字どおり満たしきれない水準」であり、2027〜2028年も同等かそれ以上になるだろうと述べた
- OpenAI ハードウェアプログラム責任者の Richard Ho は、フロンティア AI モデルで最も重要なカーネル、メモリ移動、ネットワーキング、サービングパターンを中心にアーキテクチャを最適化したと説明

フルスタック戦略と競争構図

OpenAI はフロンティアモデルの開発と製品構築を超え、その下のインフラまで自社で設計する — チップアーキテクチャ、カーネル、メモリシステム、ネットワーキング、スケジューリング、デプロイシステム、製品体験を含む
これにより、Google（TPU）、Amazon（Trainium）、Microsoft（Azure Maia 100）のように独自シリコンを持つフルスタック AI 事業者の列に加わる
Nvidia 依存の縮小
- 「誰も Nvidia に従属したくはない」（Quilter Cheviot 技術リサーチ責任者 Ben Barringer）というように、チップ供給元の多様化が進む
- OpenAI は Nvidia の最大顧客の一社である一方、AMD（Instinct MI450 シリーズ）、Cerebras などとも供給契約を結んでいる
事業上の意味
- Nvidia が AI データセンターの中核部品供給によって世界最高価値企業となる中、AI インフラ市場の収益ポテンシャルが際立つ
- 1兆ドル規模の評価が取り沙汰されるIPOを前にした OpenAI にとって、推論コスト削減は莫大な学習コストの回収と収益性証明の鍵
- Broadcom 株は 2026年に入って上昇し、2022年末比で約7倍となっており、協業の恩恵が反映されている

先端 AI の大衆化

推論はAI が人と出会う接点であり、コスト・速度・安定性の改善は、そのまま ChatGPT のより高速な応答、待ち時間のない Codex 作業、より安価な API 製品、需要急増時でもより安定したアクセスにつながる
先端モデルをより多くの人が毎日使えるだけの利用可能性・安定性・低コストを実現することが、AI の大衆化の核心
学生、開発者、小規模事業者、研究者、企業など、学び、作り、難しい問題を解こうとするすべての人のために、インフラを有用な知能へと変換することに貢献する

1件のコメント

GN⁺ 3 시간 전

Hacker Newsのコメント

「OpenAIのモデルで設計と最適化を加速した」という部分をもっと詳しく見たい。
今の表現だけを見ると、Microsoft Officeや5KのLG Ultrafine 40インチモニターのおかげで開発が速くなったと言っているようなマーケティング文句に見える。
本当に示唆しているほど大きなことなら、OpenAIはもっと大きく強調していたはずだ。
- チップCEOの立場では、「設計」と「生産」が何を意味するのかでまったく違ってくる。
  「設計」が設計完了を意味するのか、「生産」が生産開始、つまりテープアウトを意味するのかが不明確だ。
  RTLフリーズからテープアウトまで9か月なら、大規模で複雑な3nmチップとしてはかなり普通で、想定外の問題まで考慮すると少しも印象的ではないスケジュールだ。
  逆に、コンセプト段階、つまりRTLなしでアーキテクチャのブロック図しかない状態からテープアウトまでなら驚異的なスケジュールで、実際にはその中間あたりの可能性が高い。
  もっと具体的な発表なら、実際の技術マイルストーンとゲートを使うべきだ。
- チップ開発に使うハードウェア記述言語(HDL) はプログラミング言語に似ており、既存のモデルもこれを理解してかなり多くのことができる。
  チップ設計ワークフローに大規模言語モデルを使うために、別途特化モデルが必須というわけではない。
  設計検証も従来型のプログラミングが多く含まれるため、大規模言語モデルの助けを受けられる。
  まったく無意味な話ではなく、今日オープンソースのチップ設計ソフトウェアをダウンロードすれば、大規模言語モデルが小さなチップを自分で始めるのにも役立つだろう。
- BroadcomはすでにAI SoC向けのIPを多く持っている。
  この推論チップの難しい部分はBroadcomがすでに設計しており、OpenAIは望む仕様をBroadcomに伝えただけだった可能性が高い。
  Google TPUともかなり似ていそうだ。
  「第1世代アクセラレータが現在の最先端と比べてワット当たり性能を大幅に高める」とあるが、ここでの「大幅に」が何を意味するのか気になる。
  Vera Rubinは今年末に大量出荷予定で、Blackwellより推論の電力効率が10倍高いと見込まれている[0]。
  すでにテープアウトしていたとしても、バグ修正、チップ製造、HBM割り当て、ラック設計、インターコネクト、データセンター配備まで進めるには最低12か月、おそらくそれ以上かかる可能性が高い。
  このチップがデータセンターに大量導入されるころには、Vera Rubin UltraやFeynmanと競合することになるかもしれない。
  個人的には、OpenAIはこのプロジェクトに投資すべきではなかったと思う。
  まだ早すぎるし、Anthropicのようにまずモデルに集中して勝ち、収益性が出てからこうしたプロジェクトをやるべきだった。
  AIにはエネルギーという固い上限があるため、OpenAIにとってはリスクが大きい。
  1GWあるなら最良のチップだけを導入すべきで、Nvidiaのチップのほうが優れているなら、このプロジェクトは数十億ドルの無駄遣いになる。
  [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
- 考えられる意味は大きく二つあり、その中間の冗談もある。
  1. OpenAIがチップ設計を改善できるAI技術を実際に持っている — 大胆で可能性の低い主張なので、証拠が必要だ。
  2. OpenAIがシミュレーションハードウェア上で性能をテストするためのテスト・検証モデルとカーネルを設計した。
    問題は、後者だけを意味する可能性がある文を前者のように聞こえる形で書いており、そのため信用しにくいことだ。
- Verilogはすでに多く公開されているので、AIの助けでさらに多くのVerilogを書いてチップを設計した可能性は十分にある。
  必ずしも革命的である必要はなく、AI支援設計がうまくはまり、カスタムASICを作る価値があったのかもしれない。
OpenAIの記事では抜けていたが、チップを製造するのはTSMCである可能性がほぼ確実に見える [1]。
Intelが担当したのかは確信が持てなかった。
1. https://www.investing.com/news/stock-market-news/openai-unve...
- Twitterで見た主張では、Google、Amazon、OpenAIのような企業がBroadcomを使う理由は、単なる設計能力だけでなく、BroadcomがTSMCおよびメモリメーカーとの割り当て契約を持っているからだという。
- 最近になってようやくパズルのピースがはまった。
  BroadcomはGoogleのTPUハードウェアパートナーとなり、TSMCの生産能力をGoogleと共有しながら大金を稼ぎ、今はOpenAIにも同じことをしているようだ。
  AIゴールドラッシュを活用する本当に賢いやり方だ。
  ただ、その稼いだ金をVMWareやBitnamiのときのようにソフトウェア業界から金を絞り取ることに使わないでほしい。
重みがチップのROMの一部として入っている推論チップを見てみたい
重みごとに乗算器が1つあり、定数なので全体が単純な加算器の束に置き換わり、完全パイプライン化されたスループットはクロック当たり1トークンになり得る
そうなればシリコンの一片で数百万人のユーザーを同時に処理し、出力バスから毎秒5億トークンが出る可能性もある
欠点は、チップがとてつもなく大きくなってウェハ1枚まるごとになるだろうという点
ウェハレベルの欠陥は大きな問題ではないかもしれない。ニューラルネットワークは一部の重みが欠けたり間違っていたりしても持ちこたえる傾向がある
業界の進む速度が速いので、モデル重みから生産までを非常に速く走らせ、ウェハを50枚作って1年使い、モデルが古くなったら捨てる、という形になりそう
- 正確には、重みをROMに入れるというより**メモリ内演算(CIM)**を指しているのに近い
  データ、ここでは乗算値が、プロセッサ、ここでは乗算回路の一部になる手法
  「持ってきて処理する」という問題をアーキテクチャ的に完全に回避する
  データが演算の起こる場所にあるので移動せず、レイテンシもない
- 以前https://taalas.com/が出てきたし、似た考えのところはほかにもありそう
  この方式はfrontierモデルより小規模モデルに向いているように見える。最先端モデルは変化が速すぎる
- Cerebrasを見たことがあるか気になる
  説明したほど先まで行っているわけではなく、コアとRAMは非常に多いが、重みは依然としてソフトウェアでロードする必要があり、大規模モデルではチップ内へストリーミングしなければならない
  それでもウェハ全体チップではある
- 重みをROMに入れる発想は以前から考えていた
  多くの作業ではROMに重みを入れても問題ないかもしれない
  ただ、重みごとに乗算器を1つ置くのが良いアイデアかどうかは確信がない
  2ビット程度に量子化していれば可能かもしれないが、そうでなければ各乗算器や各行の近くに小さなROMを置き、遠くからデータを運ばずにN個の異なる行列演算を処理させるほうがよいかもしれない
  もう1つの面白い構想は、DRAMにMACユニットの行を取り付けてDRAM行をベクトルとして使うこと
  行サイズが64Kbitなら8ビット重み基準で8K個で、重みと計算を同じチップ上に保持できる
  ただし、1チップに十分な数の乗算器を入れられるかは分からない
  シストリックアレイなら数万～数十万個がそれぞれクロック当たり1演算を実行できる
- メムリスタがこの用途には理想的で再プログラム可能だとも言われるが、メムリスタはコンピューティング界のカーボンナノチューブのような存在に見える
チップレベルでは、まだ解ける効率改善がものすごく多く残っていそうで興味深い
Taalasをどう見ているのか気になる
LLMモデルを実際にシリコンに焼き込み、微調整用のオンボードメモリを一部持たせるという
コストとレイテンシで大きな利得を主張している
とても速いデモはhttps://chatjimmy.ai/で見られる
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
- 汎用GPUだけを独占的に使うなら、当然ながら効率をかなり取りこぼすことになる
  だからGoogleは10年以上前にTPUを作り始めた
  Timnit GebruがLLMの環境影響を計算する際にGPUを基準にしてTPU効率を無視した論文を巡って、GoogleがGebruを解雇したという論争を思い出す
  その大きな効率格差のせいでJeff Deanがかなり怒っていたように見えた
- こういう種類のものをもっと見られたら素晴らしいが、新しいモデルが出るたびに完全に新モデルへ更新する能力は限られそう
  そうなると販売は極めて難しくなる
- 技術的には興味深いが、細部があまりにも足りないように見える
  チップに永遠に変わらない単一モデルを入れるという発想は好きではない
  重みに書き換え可能なROMを使うと、シリコンがどれだけ高くなるのか気になる
  そうすれば設計対象モデルの微調整が可能になり、モデルが古くなるという懸念を和らげられる
- チャットボットで17kトークン/秒はすごいが、ほとんど役に立たないデモだ
  コーディングエージェントでは意味のある改善であり、ロボティクスでは完全な革命になり得る
  8Bモデルは汎用用途では有用ではないが、特定用途ではものすごい知能を提供できる
  NvidiaのTesla/Waymoの競合は7B LLMと2B拡散モデルだが、それをその速度で回せるなら既存解法よりコストを一桁下げられる可能性がある
- モデルの進歩が大きく鈍化する時点に達すれば、こうしたハードウェアがLLMプロバイダーの未来になる気がする
  今でもその時点に近いと主張することはできる
  AWSのようなハイパースケーラーは、数年間有効なモデルをサービスするのにこうしたチップをうまく活用するだろう
  ただ今は、特にDeepseek/Kimi/GLMのようなオープンウェイトモデルで、数か月ごとにモデル品質が大きく向上している
  それまでは、汎用ハードウェアと比べてこの方式がコスト効率的になる道筋はあまり見えない
  また、こうしたものの小型版がモバイルハードウェアに入って、非常に高速かつ高効率なオンデバイスLLMを提供するようになる気もする
かなり大きな動き
GoogleとTPUはもう7世代目あたりまで来ているように見えるし、LPUやCerebrasのWafer Scale Engineのような派生的な試みまで考えると、はるかに先見の明があったように見える
ただ第一印象では、このチップは学習ではなく推論向けを狙っているようで、それも興味深い選択だ
- 学習はほぼ一回限りのコストで、アーキテクチャ改善によってすでに効率は下がりつつある
  一方で推論は継続的に発生するコストであり、時間が経つほどはるかに多くの資源を消費するので、これをより効率的にすることに集中するほうが長期的には得になる
- もはや推論コストのほうが学習コストより高いと見ている
  Nvidiaは汎用学習チップの王者だが、推論は特化できる
- CerebrasのCodex Spark 5.3は大きな失敗だった
  コンテキストウィンドウが小さく、モデルも古い
  それでも改善されて、GPT 5.5を毎秒1000トークンで使えるようになるといいのだが
- 「初期テストではJalapeñoが現在の最先端と比べてワット当たり性能をかなり高める」と言っているが、ここで本当に重要なのが何かが見え始めている
  表現は曖昧だが、TPUも似たような主張をしている
  Googleの「我々には堀がない」というメモは今でも正しいと思う。知らなければ https://newsletter.semianalysis.com/p/google-we-have-no-moat... 参照
  今の流れは、60〜90年代にIBM、DEC、Cray、Sunが繰り広げたハードウェア競争により近くなっているように思える
  歴史は繰り返さないが韻を踏むとも言うし、こうした取り組みも同じ軌跡をたどりそうだ
AIの進歩の速さと、AIがより速くより良いAIを作るのを助けている状況を見ると、こうしたハードウェアが意味のある投資回収をする前に旧式化するのではないかとずっと気になっている
すでに量子化やオフロードによって巨大なAIモデルをより少ない資源で動かせるようになっているが、それはまだ始まりにすぎない
いつか、もしかするとそう遠くないうちに、200B級の巨大LLMを5年前のDellデスクトップで十分に動かせるようにするブレークスルーが出るかもしれない
狂った話に聞こえるかもしれないが、初期のハードディスク容量を見てほしい
IBM 350は直径24インチのプラッタ50枚を持つディスクで3.5Mbを保存し、現在価値で3万5000ドルでリースされていた
https://www.computerhistory.org/storageengine/first-commerci...
これをマルチテラバイトSSDと比較し、同じ改善を現在のLLMアーキテクチャと実行方式に当てはめてみてほしい
AIの助けまで加われば、ほどなく飛躍が起きて、現在最先端のNvidiaカードで埋め尽くされたデータセンターがほぼ一夜にして時代遅れになる可能性もある
- そうしたブレークスルーがあるなら、同じ方法で今日のデータセンターで200Tモデルを動かすこともできるのではないかと思う
- 面白い考えではあるが、ハードディスクとの比較はおそらく公平ではない
  IBM 350は70年前に商用化され、今日誰かがマルチTB SSDと比較できるようになるまで70年かかった
  しかもムーアの法則が今後数十年にわたってLLMにも必ず当てはまる保証はない
- ジェボンズのパラドックスとスケーリング則のせいで、そうはならない気がする
  より大きなモデルが常によいのなら、実際そう見えるので、常に高性能ハードウェアが必要になる
- コンピューティングのブレークスルーは、通常はコンピューティング使用量を減らすよりむしろ増やす
- いつかGPU以外に、LLM向けの専用ハードウェアが出てくる気がする
  TPUはあるが主にデータセンター向けで、GPUはもともとグラフィックス用途のものを適応させたものだ
  データセンター需要が一段落すれば、イノベーションが本格化するかもしれない
ここであまり議論されていない点がある
BroadcomのCEOであるHock Tanはインタビューで、このアクセラレータはこれまでの一般的なAIグラフィック処理装置と比べて約50%のコスト削減を示していると述べた [0]
情勢の変化があまりに速く、まだ手の届く低い果実も多いので、どのベンダーが堀を持つのか、あるいは投資を回収できるのかを論じることにはあまり意味がないように見える
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
- GPUのマージンが75%なら、50%安いこと自体は驚きではない
- 「一般的な」という言葉が大きな役割を果たしている
  Nvidiaが今売っているチップよりはるかに古いチップを指している可能性もある
「2026年末の初期展開を目標とし、その後数年かけて拡大する」のであれば、IPO後に将来の約束としてIPO営業資料で大きく扱われそうだ
IPO前の発表は何であれ懐疑的に見ている
- ナラティブがIPO前の茶番のように感じられるし、見た目もランドリーバスケットのふたみたいだ
  詐欺でも驚かない気がする
- 誰のIPOなのか分からない
  BroadcomとGoogleはもちろんすでに上場している
Microsoft、Google、Amazonもこうしたことをやっているが、彼らはチップをホストするハイパースケールデータセンターインフラも持っている
チップを設計してテープアウトすることと、パッケージング、冷却、展開、電力供給、フリート管理は完全に別のスタックだ
その部分をどこから持ってくるのか気になる
- Stargateを忘れてはいけない
  更新: Twitterで誰かがMicrosoftとOracleに50:50でホストされると言っていた
以前、Opus 4.5にVerilogベースのLLM推論エンジンを設計させ、ファームウェアと自動検証まで含めたことがある: https://github.com/cpldcpu/smollm.c
もちろん最適にはほど遠いが、抽象化レベルを下げて実装まで落とし込むやり方が非常に強力だということは確認できた
- VerilogとFPGA全般を学ぶのに向いたチュートリアルを勧めてもらえるとありがたい
  Tang Nano 9kが1台余っているが、Claudeにただの雰囲気コーディングで解決策を作らせる自信はなく、最低限の基礎理解は持っておきたい

OpenAI、Broadcomと共同開発した初の独自推論チップ Jalapeño を公開

Jalapeño チップ公開

チップ構造と性能

性能・効率

動作検証

9か月でテープアウト、OpenAI モデルが加速

マルチ世代プラットフォームとパートナー

協力体制

爆発的な需要

フルスタック戦略と競争構図

Nvidia 依存の縮小

事業上の意味

先端 AI の大衆化

関連記事

1件のコメント

Hacker Newsのコメント