4 ポイント 投稿者 GN⁺ 2024-09-24 | 1件のコメント | WhatsAppで共有
  • TeslaはHotChips 2024でTesla Transport Protocol over Ethernet (TTPoE) をオープンソースとして公開
  • テスラはUltra Ethernet Consortium (UEC) に参加し、このプロトコルを共有するとともに、AI/ML/データセンター向けの新しい高速・低遅延ファブリックの標準化に取り組んでいる
  • TTPoEは非独占的で、低コストであり、分散型輻輳制御、標準EthernetIIフレーム、非中央集権型の相互接続プロトコルを志向している
  • TTPoEの特徴
    • TCPと同様にパケット損失と再送を許容するが、全体の転送は保証される
    • TTPoEの初期導入はTesla Dojo v1プロジェクトで行われた
      • プロトコルは完全にハードウェア上で動作し、数万を超える同時エンドポイントを持つ超大規模マルチエクサフロップス(fp16) スーパーコンピューターに展開された
    • このプロトコルはCPUやOSの介入なしにリンクを確立し、実行できる
  • このプロトコルは複雑だったり過度に洗練されていたりするものではなく、基本原則に基づいている
    • イーサネット伝送は本質的にAからBへデータを移動させることであり、物理的限界によってのみ制約されるべき
    • 非常に大規模なシステムで中央集権的な輻輳管理を行うのは無意味な試みであり、各エンドポイントはレジリエントで自己管理型であるべき

GN⁺の見解

  • TTPoEは高性能コンピューティング環境において、既存のTCPプロトコルが持つ限界を克服するための興味深い試み
  • ハードウェアオフロードと簡素化されたステートマシンによって、レイテンシを最小化しスループットを最大化することが主な目標のようだ
  • TTPoEはAIとML分野でデータ転送速度とレイテンシを改善できる可能性がある
  • Teslaがこのプロトコルをオープンソースとして公開したことは、HPC分野でのイノベーション加速に役立つだろう
  • ただし、TTPoEが汎用ネットワークでTCPを完全に置き換えるのは難しいと見られ、高品質な専用ネットワークに最適化されたソリューションである。TTPoEが広く採用されるには、標準化とエコシステム構築が重要になるだろう
  • 類似機能を持つプロトコルとしてはRoCE (RDMA over Converged Ethernet) とNVLinkがある

1件のコメント

 
xguru 2024-09-24

TTPoE について、もう少し詳しく説明した別の記事がありますね
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications

TTPoE の概要

  • Tesla は Hot Chips 2023 で Dojo スーパーコンピュータを紹介しており、自動運転車のような自動車向けアプリケーションに重点を置いた機械学習に使用している
  • 学習データは大量の IO 帯域幅を必要とする動画を扱い、単一テンソルのサイズは Tesla のビジョンアプリケーションでは 1.7GB に達することがある
  • Tesla は、ホストマシンがスーパーコンピュータへデータをプッシュする速度によって Dojo スーパーコンピュータのスループットが制限される可能性があることを発見した

TTPoE の必要性

  • Tesla は、より多くのホストを追加し、それらの追加ホストをスーパーコンピュータへ低コストで接続する方法によってこの問題を解決した
  • InfiniBand のような一般的なスーパーコンピュータ向けネットワーキングソリューションの代わりに、Tesla は修正したトランスポート層で Ethernet を自社の要件に合わせて適応させることを選んだ
  • TCP は Tesla Transport Protocol over Ethernet(TTPoE)に置き換えられ、マイクロ秒単位のレイテンシを提供し、単純なハードウェアオフロードを可能にするよう設計されている

TTPoE の特徴

  • TTPoE は完全にハードウェアで処理されるよう設計されており、標準的な TCP プロトコルより優れたレイテンシを提供する
  • TTPoE の状態マシンは TCP と比べて大幅に単純化されている
  • TCP の待機状態を排除することでレイテンシが低減される
  • TTP は TIME_WAIT 状態を削除し、3 回の送信から 2 回の送信へと接続終了シーケンスを変更する
  • TCP の 3-way ハンドシェイクを 2-way に変更し、接続確立のレイテンシを短縮する

TTPoE の輻輳制御

  • TCP と同様に、Tesla は輻輳制御のためにパケットロスを利用している
  • Tesla は低レイテンシの基盤ネットワーク上で動作するよう設計されているため、この問題に対して力任せのアプローチを取ることができた
  • 従来の TCP 実装はスライディング輻輳ウィンドウを維持管理するが、TTP はそうではない
  • ハードウェアは SRAM バッファ内で送信されたデータを追跡し、これが輻輳ウィンドウサイズを定義する
  • 従来の TCP 輻輳制御アルゴリズムは、Tesla の Dojo スーパーコンピュータ向けアプリケーションに有効であるには時間スケールが長すぎる

TTPoE のハードウェア実装

  • Tesla は、チップと標準 Ethernet ハードウェアの間に配置されたハードウェアブロックで TTP プロトコルを処理する
  • この MAC ハードウェアブロックは CPU 設計者によって設計され、多くの CPU 設計機能が導入されている
  • 発表者はこれを共有キャッシュのように動作すると説明しており、アービタは順序上のハザードを考慮してリクエストの中から選択する
  • 最も目立つリソースの 1 つは 1MB の送信 SRAM バッファで、前述のとおり輻輳ウィンドウを定義する

Mojo NIC

  • TPP MAC は、Tesla が "Dumb-NIC" と呼ぶものに実装されている
  • 可能な限り安価で単純であることから "dumb" と呼ばれている
  • Tesla は Dojo スーパーコンピュータへデータを供給するために多数のホストノードを展開しようとしており、安価なネットワークカードを使えばこれをコスト効率よく実現できる
  • Mojo という名前は、追加のホストノードが性能維持のために Dojo にさらに多くの Mojo を与えるという考え方に由来する
  • Mojo カードはリモートホストマシンに取り付けられ、エンジニアが Dojo スーパーコンピュータへデータを供給するためにさらに多くの帯域幅を必要とする場合、プールからリモートホストマシンを引き上げることができる

要約

  • Mojo と TTPoE プロトコルは、よく知られた伝送制御プロトコル(TCP)が高品質なスーパーコンピュータ内部ネットワークで使うためにどのように単純化できるかについて、興味深い洞察を与えてくれる
  • このプロトコルは理論上インターネット上でも動作し得るが、固定輻輳ウィンドウのような単純化は、インターネットサービスプロバイダやその先へ接続する品質の低いリンクではうまく機能しないだろう
  • InfiniBand のような他のスーパーコンピューティング向けネットワークソリューションと比べると、Ethernet 上のカスタム伝送プロトコルは Dojo の要件を満たすのに十分な追加帯域幅を提供できる可能性がある