2 ポイント 投稿者 GN⁺ 2025-12-03 | 1件のコメント | WhatsAppで共有
  • AWSが3ナノメートルプロセスのTrainium3チップを搭載したTrainium3 UltraServerを公開し、AI学習および推論性能を大幅に向上
  • 新システムは前世代に比べ、4倍高速および4倍のメモリ40%高いエネルギー効率を提供
  • 最大で10万ではなく100万個のTrainium3チップを接続できるため、大規模なAIアプリケーション処理に適している
  • Anthropic、Karakuri、SplashMusic、Decartなどの顧客がすでに使用しており、推論コスト削減効果が確認されている
  • AWSは次世代Trainium4チップNvidia NVLink Fusionをサポートし、Nvidia GPUとの相互運用が可能になると明らかにし、AIインフラ競争における重要な転換点と評価された

Trainium3公開

  • AWSはre:Invent 2025イベントでTrainium3 UltraServerを正式発表した
    • このシステムは3ナノメートルTrainium3チップAWS独自のネットワーキング技術で動作する
    • AI学習と推論の両方で第2世代比で性能が大幅に向上したと説明している
  • AWSはTrainium3システムが4倍の処理速度4倍のメモリ容量を提供すると述べた
    • 各UltraServerには144個のチップが搭載される
    • 数千台のサーバーを接続して、最大100万個のチップを1つのアプリケーションに活用可能
  • 新チップはエネルギー効率が40%向上しており、データセンターの電力消費を抑えるのに役立つ
    • AWSはこれによりAIクラウド顧客のコスト削減も可能になると強調した

主要顧客と活用事例

  • Anthropic日本のLLM KarakuriSplashMusicDecartなどがすでにTrainium3を使用中
    • これらの顧客は推論コストを大幅に削減したとAWSは説明している
  • AWSはこの性能およびコスト効率の改善がAIアプリケーションの拡張性を高める基盤になっていると述べている

次世代チップTrainium4のロードマップ

  • AWSはTrainium4がすでに開発中で、NvidiaのNVLink Fusion高速インターコネクト技術をサポートする予定と発表した
    • これによりNvidia GPUとの相互運用が可能となり、AWSの低コストサーバーラック技術と組み合わせることが可能
  • Nvidia CUDAが主要AIアプリケーションの標準として確立している状況では、Trainium4システムはNvidia GPUベースのアプリをAWSクラウドへ移行しやすくする可能性を持つ
  • Trainium4の発売時期は明らかにされておらず、来年のre:Inventイベントで追加情報が公開される可能性がある

エネルギー効率とコスト削減の戦略的意味

  • AWSはデータセンターの電力使用が急増する中で、**「より消費電力の低いシステム」**を構築している
  • このアプローチは運用コスト削減持続可能性確保という二つの目標を同時に実現しようとする取り組みとして評価されている
  • AWSのコスト削減重視戦略はAIインフラ競争でクラウド顧客の獲得力向上へつながる可能性がある

サマリー

  • Trainium3は性能・メモリ・効率性のすべてが大幅に向上した第3世代AIチップ
  • Trainium4はNvidiaとの互換性を通じてAWSエコシステムの拡大を目指す
  • AWSは高性能・低コスト・環境配慮型AIインフラを同時に追求し、AIクラウド市場の競争力強化を狙っている

1件のコメント

 
GN⁺ 2025-12-03
Hacker Newsの意見
  • 私たちのチームはAWSの担当者に、TrainiumInferentiaインスタンスには興味がないと何度も伝えてきた
    標準ライブラリであるTransformersPyTorchと安定して互換性があるという確かな証拠がないからだ
    AWSは問題なく動くと主張するが、それは彼ら独自の特定のAMIneuron SDKでのみ可能な「ハッピーパス」にすぎない
    実際に私たちの依存関係を使って作業すると、すぐに破綻する
    GCPのTPUも、Googleがソフトウェアサポートに莫大な投資をした後でようやく実用的になった
    AWSチップを使うために私がベータテスターになる時間はない
    • AWSは中核サービス(S3、Dynamo、Lambda、ECSなど)を外れると、ベータサービスだらけだ
      安定しているものは少数で、残りは荒削りな部分が多い
    • GoogleはTPUをエコシステムに溶け込ませるために途方もない努力をした
      Amazonがそのレベルの投資をするとは想像しにくい
    • ネタバレすると、カスタムコードを大量に書かない限り動かない
  • SageMakerでLMIコンテナを自前でビルドしようとして地獄を見た
    vLLMのバージョンは6カ月間更新されておらず、通常のエンドポイントは8年前に決まった60秒タイムアウトのせいで使い物にならない
    こんな状況でカスタムシリコンを使おうとする開発者がどんな苦痛を味わうか、想像するだけでも恐ろしい
  • AWSはTrainiumについて大げさに語るが、壇上に出てきて称賛する顧客は一人もいない
    実際に使った人たちはデプロイと運用の苦痛のために断念したという
    社内ではかなり使われているようだが、外部での採用はほとんどない
    それでもAmazonが自社チップに投資していること自体は前向きに見ている
    • Inf1/Inf2スポットインスタンスは人気がなさすぎて、CPUインスタンスより10〜20%安い
      Trn1はまだそこまでではないので、誰かは使っているようだ
    • AnthropicもTrainiumをかなり使っていると聞いた
      おそらくAWSの全面的な支援を受けているのだろう
      SDKやツール群にもっと投資しなければ、誰もこうしたクラウドを使わないだろう
  • Block floating point (MXFP8/4) という概念は興味深い
    AIが、何十年も変わらなかった基本データ型の変革を強く推し進めている
    Block floating pointのWikipedia記事
  • 記事で肝心の、このチップが何をするのかを一度も説明していないのが興味深い
    • 中核は複数の128x128 systolic array構造だ
      詳細はSemianalysisニュースレターを参照
    • 名前のとおりTraining用のチップだ
    • 要するにベクトル演算を行うチップだ
    • おそらくこのチップの本当の使命は株主を満足させることであり、開発者に説明する必要はないと考えているのだろう
  • 性能やベンチマークへの言及がまったくない
    • 「4倍多い」とは言うが、4倍速いという意味でもなく、メモリが4倍多いと言っても基準がない
  • 本当のニュースは「Nvidiaフレンドリーなロードマップ」という部分だ
    AmazonはAIでも物流のようにコスト削減を狙っているようだ
    しかし自信は低く、Nvidiaとの関係を維持しようとする体面のための戦略に見える
  • NVLinkが広がっているのは興味深い
    Intelも参加しており、これはまるでPCI → AGP移行期のような瞬間だ
    AMDは昔のHyperTransport時代にはチャンスをつかみかけたが、今のInfinity Fabricは内部用途にとどまっている
    UALinkCXLも注目されているが、依然としてPCIeの速度限界がある
    理想を言えば、チップにネットワーキング統合が標準で入っているべきだ
    昔のIntel Xeonが100Gb Omni-Pathをほぼ無料で提供していたときのように
    • NVLink Fusionは結局Nvidia依存の罠のように見える
      Intelが切迫しているのは理解できるが、AWSが同じ道を進むのは良くないように思える
      AMDならSolarFlare NICをI/Oダイに入れるほうがよいと思う
      PCIe/SATA変換が可能なようにPCIe/Ethernet変換も可能なはずだが、UECはニッチすぎる市場かもしれない
  • Amazon公式ポスト: Trainium 3 UltraServerの紹介