Amazon、次世代AIチップTrainium3を発表し、NVIDIAとの連携ロードマップを示唆

(techcrunch.com)

2 ポイント投稿者 GN⁺ 2025-12-03 | 1件のコメント | WhatsAppで共有

AWSが3ナノメートルプロセスのTrainium3チップを搭載したTrainium3 UltraServerを公開し、AI学習および推論性能を大幅に向上
新システムは前世代に比べ、4倍高速および4倍のメモリ、40%高いエネルギー効率を提供
最大で10万ではなく100万個のTrainium3チップを接続できるため、大規模なAIアプリケーション処理に適している
Anthropic、Karakuri、SplashMusic、Decartなどの顧客がすでに使用しており、推論コスト削減効果が確認されている
AWSは次世代Trainium4チップがNvidia NVLink Fusionをサポートし、Nvidia GPUとの相互運用が可能になると明らかにし、AIインフラ競争における重要な転換点と評価された

Trainium3公開

AWSはre:Invent 2025イベントでTrainium3 UltraServerを正式発表した
- このシステムは3ナノメートルTrainium3チップとAWS独自のネットワーキング技術で動作する
- AI学習と推論の両方で第2世代比で性能が大幅に向上したと説明している
AWSはTrainium3システムが4倍の処理速度と4倍のメモリ容量を提供すると述べた
- 各UltraServerには144個のチップが搭載される
- 数千台のサーバーを接続して、最大100万個のチップを1つのアプリケーションに活用可能
新チップはエネルギー効率が40%向上しており、データセンターの電力消費を抑えるのに役立つ
- AWSはこれによりAIクラウド顧客のコスト削減も可能になると強調した

主要顧客と活用事例

Anthropic、日本のLLM Karakuri、SplashMusic、DecartなどがすでにTrainium3を使用中
- これらの顧客は推論コストを大幅に削減したとAWSは説明している
AWSはこの性能およびコスト効率の改善がAIアプリケーションの拡張性を高める基盤になっていると述べている

次世代チップTrainium4のロードマップ

AWSはTrainium4がすでに開発中で、NvidiaのNVLink Fusion高速インターコネクト技術をサポートする予定と発表した
- これによりNvidia GPUとの相互運用が可能となり、AWSの低コストサーバーラック技術と組み合わせることが可能
Nvidia CUDAが主要AIアプリケーションの標準として確立している状況では、Trainium4システムはNvidia GPUベースのアプリをAWSクラウドへ移行しやすくする可能性を持つ
Trainium4の発売時期は明らかにされておらず、来年のre:Inventイベントで追加情報が公開される可能性がある

エネルギー効率とコスト削減の戦略的意味

AWSはデータセンターの電力使用が急増する中で、**「より消費電力の低いシステム」**を構築している
このアプローチは運用コスト削減と持続可能性確保という二つの目標を同時に実現しようとする取り組みとして評価されている
AWSのコスト削減重視戦略はAIインフラ競争でクラウド顧客の獲得力向上へつながる可能性がある

サマリー

Trainium3は性能・メモリ・効率性のすべてが大幅に向上した第3世代AIチップ
Trainium4はNvidiaとの互換性を通じてAWSエコシステムの拡大を目指す
AWSは高性能・低コスト・環境配慮型AIインフラを同時に追求し、AIクラウド市場の競争力強化を狙っている

1件のコメント

GN⁺ 2025-12-03

Hacker Newsの意見

私たちのチームはAWSの担当者に、TrainiumやInferentiaインスタンスには興味がないと何度も伝えてきた
標準ライブラリであるTransformersやPyTorchと安定して互換性があるという確かな証拠がないからだ
AWSは問題なく動くと主張するが、それは彼ら独自の特定のAMIとneuron SDKでのみ可能な「ハッピーパス」にすぎない
実際に私たちの依存関係を使って作業すると、すぐに破綻する
GCPのTPUも、Googleがソフトウェアサポートに莫大な投資をした後でようやく実用的になった
AWSチップを使うために私がベータテスターになる時間はない
- AWSは中核サービス（S3、Dynamo、Lambda、ECSなど）を外れると、ベータサービスだらけだ
  安定しているものは少数で、残りは荒削りな部分が多い
- GoogleはTPUをエコシステムに溶け込ませるために途方もない努力をした
  Amazonがそのレベルの投資をするとは想像しにくい
- ネタバレすると、カスタムコードを大量に書かない限り動かない
SageMakerでLMIコンテナを自前でビルドしようとして地獄を見た
vLLMのバージョンは6カ月間更新されておらず、通常のエンドポイントは8年前に決まった60秒タイムアウトのせいで使い物にならない
こんな状況でカスタムシリコンを使おうとする開発者がどんな苦痛を味わうか、想像するだけでも恐ろしい
AWSはTrainiumについて大げさに語るが、壇上に出てきて称賛する顧客は一人もいない
実際に使った人たちはデプロイと運用の苦痛のために断念したという
社内ではかなり使われているようだが、外部での採用はほとんどない
それでもAmazonが自社チップに投資していること自体は前向きに見ている
- Inf1/Inf2スポットインスタンスは人気がなさすぎて、CPUインスタンスより10〜20%安い
  Trn1はまだそこまでではないので、誰かは使っているようだ
- AnthropicもTrainiumをかなり使っていると聞いた
  おそらくAWSの全面的な支援を受けているのだろう
  SDKやツール群にもっと投資しなければ、誰もこうしたクラウドを使わないだろう
Block floating point (MXFP8/4) という概念は興味深い
AIが、何十年も変わらなかった基本データ型の変革を強く推し進めている
Block floating pointのWikipedia記事
記事で肝心の、このチップが何をするのかを一度も説明していないのが興味深い
- 中核は複数の128x128 systolic array構造だ
  詳細はSemianalysisニュースレターを参照
- 名前のとおりTraining用のチップだ
- 要するにベクトル演算を行うチップだ
- おそらくこのチップの本当の使命は株主を満足させることであり、開発者に説明する必要はないと考えているのだろう
性能やベンチマークへの言及がまったくない
- 「4倍多い」とは言うが、4倍速いという意味でもなく、メモリが4倍多いと言っても基準がない
本当のニュースは「Nvidiaフレンドリーなロードマップ」という部分だ
AmazonはAIでも物流のようにコスト削減を狙っているようだ
しかし自信は低く、Nvidiaとの関係を維持しようとする体面のための戦略に見える
NVLinkが広がっているのは興味深い
Intelも参加しており、これはまるでPCI → AGP移行期のような瞬間だ
AMDは昔のHyperTransport時代にはチャンスをつかみかけたが、今のInfinity Fabricは内部用途にとどまっている
UALinkやCXLも注目されているが、依然としてPCIeの速度限界がある
理想を言えば、チップにネットワーキング統合が標準で入っているべきだ
昔のIntel Xeonが100Gb Omni-Pathをほぼ無料で提供していたときのように
- NVLink Fusionは結局Nvidia依存の罠のように見える
  Intelが切迫しているのは理解できるが、AWSが同じ道を進むのは良くないように思える
  AMDならSolarFlare NICをI/Oダイに入れるほうがよいと思う
  PCIe/SATA変換が可能なようにPCIe/Ethernet変換も可能なはずだが、UECはニッチすぎる市場かもしれない
Amazon公式ポスト: Trainium 3 UltraServerの紹介

Amazon、次世代AIチップTrainium3を発表し、NVIDIAとの連携ロードマップを示唆

Trainium3公開

主要顧客と活用事例

次世代チップTrainium4のロードマップ

エネルギー効率とコスト削減の戦略的意味

サマリー

関連記事

1件のコメント

Hacker Newsの意見