- TeslaはHotChips 2024でTesla Transport Protocol over Ethernet (TTPoE) をオープンソースとして公開
- テスラはUltra Ethernet Consortium (UEC) に参加し、このプロトコルを共有するとともに、AI/ML/データセンター向けの新しい高速・低遅延ファブリックの標準化に取り組んでいる
- TTPoEは非独占的で、低コストであり、分散型輻輳制御、標準EthernetIIフレーム、非中央集権型の相互接続プロトコルを志向している
- TTPoEの特徴
- TCPと同様にパケット損失と再送を許容するが、全体の転送は保証される
- TTPoEの初期導入はTesla Dojo v1プロジェクトで行われた
- プロトコルは完全にハードウェア上で動作し、数万を超える同時エンドポイントを持つ超大規模マルチエクサフロップス(fp16) スーパーコンピューターに展開された
- このプロトコルはCPUやOSの介入なしにリンクを確立し、実行できる
- このプロトコルは複雑だったり過度に洗練されていたりするものではなく、基本原則に基づいている
- イーサネット伝送は本質的にAからBへデータを移動させることであり、物理的限界によってのみ制約されるべき
- 非常に大規模なシステムで中央集権的な輻輳管理を行うのは無意味な試みであり、各エンドポイントはレジリエントで自己管理型であるべき
GN⁺の見解
- TTPoEは高性能コンピューティング環境において、既存のTCPプロトコルが持つ限界を克服するための興味深い試み
- ハードウェアオフロードと簡素化されたステートマシンによって、レイテンシを最小化しスループットを最大化することが主な目標のようだ
- TTPoEはAIとML分野でデータ転送速度とレイテンシを改善できる可能性がある
- Teslaがこのプロトコルをオープンソースとして公開したことは、HPC分野でのイノベーション加速に役立つだろう
- ただし、TTPoEが汎用ネットワークでTCPを完全に置き換えるのは難しいと見られ、高品質な専用ネットワークに最適化されたソリューションである。TTPoEが広く採用されるには、標準化とエコシステム構築が重要になるだろう
- 類似機能を持つプロトコルとしてはRoCE (RDMA over Converged Ethernet) とNVLinkがある
1件のコメント
TTPoE について、もう少し詳しく説明した別の記事がありますね
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications
TTPoE の概要
TTPoE の必要性
TTPoE の特徴
TTPoE の輻輳制御
TTPoE のハードウェア実装
Mojo NIC
要約