TeslaのAI容量拡張 - H100、Dojo D1、D2、HW 4.0、X.AIおよびクラウドサービスプロバイダー

xguru · 2023-07-04T10:47:01+09:00

テスラは世界最高クラスのAI企業の1つになることを目指しているもちろん、まだ最高の自動運転を実現したわけでもなく、生成AIの世界でもテスラの存在感は大きくないが.. テスラは現在、社内に4,000基のV100と16,000基のA100規模の比較的小さな社内AIインフラを持っている MicrosoftやMetaは10万基以上のGPUを保有しており、この数をさらに2倍に増やそうとしているテスラの脆弱なAIインフラは、一部には社内D1訓練チップの遅延が原因となっているしかし今、その状況は急速に変わりつつあるテスラは1.5年でAI容量を10倍以上に増やしている一部は自社機能向けだが、一部はX.AI向けでもあるテスラは2016年から自動車向けに、2018年からデータセンター向けに独自のAIチップを設計してきたこれまでは生産できていなかったが、2023年時点では増産中このアーキテクチャはテスラ独自のユースケースには適しているが、LLMには有用ではない（画像ネットワークに集中） Tesla HW 4.0、第2世代FSDチップテスラ車内でAI推論を行うチップはFSDチップと呼ばれるテスラは完全自動運転に車両側で膨大な性能は必要ないと考えているため、車載チップの性能はかなり制限されているさらにテスラは大量販売を行うため、Waymo/Cruiseよりもはるかに厳しいコスト制約がある Waymo/Cruiseは開発および初期テスト時に10倍以上高価なフルサイズGPUを使い、さらに高速で高価なSoCを作っている第2世代チップは2023年2月から販売される車両に適用中第1世代はSamsungの14nmプロセスで、3つのクアッドコアクラスタから構成される12個のArm Cortex-A72（2.2Ghz）第2世代は5つのクアッドコアクラスタから構成される20個のArm Cortex-A72 第2世代で最も重要な部分は3つのNPUコア 3つのコアはそれぞれ32MiB SRAMを使用してモデルの重みとActivationを保存各サイクルごとに256バイトのアクティベーションデータと128バイトの重みデータがSRAMからMAC（Multiply Accumulate Unit）へ読み込まれる MACはグリッドとして設計され、各NPUコアは96x96グリッドを持ち、合計9,216個のMACがあり、クロックサイクル当たり18,432オペレーションが可能 2.2Ghzで動作するNPUにより、計算性能は121.641 TOPS（trillion operations per second）第2世代FSDチップは256GB NVMeストレージと16GB Micron DDR6（14Gbps）を搭載し、224GB/s転送量の128bitメモリバス上に構成されている転送量は第1世代比で3.3倍に向上 HW 4.0には2個のFSDチップが入る HW4ボードの性能向上により、消費電力は増加（HW3の2倍） HW4の性能向上にもかかわらず、テスラはHW3でもFSDをサポートしたいと考えている。既存のHW3ユーザーのうちFSD購入者がretrofit（改造）を必要としないようにするためインフォテインメントシステムはAMD GPU/APUを利用。FSDチップと同じボード上にある（以前は別のドーターボードにあった） HW4プラットフォームは12台のカメラをサポート。1台は冗長化用で、11台を実際に使用以前は前面カメラハブに低解像度1.2メガピクセルカメラ3台を使っていたが、新プラットフォームでは5メガピクセルカメラ2台を使用テスラは現在、LIDARおよびカメラ以外のセンサーを使っていない以前はradarを使っていたが、中期世代から削除されたこれにより車両製造コストを大きく下げ、純粋なカメラのみを使う自動運転車が可能だと考えて最適化しているもちろん、実用的なradarがあればカメラシステムと統合すると話したことはある HW4プラットフォームにはPhoenixという独自設計のRadarが搭載予定 PhoenixはRadarシステムとカメラシステムを組み合わせ、より多くのデータを活用してより安全な車両を作ることを目標としている Phoenixレーダーは76-77Ghzスペクトラムを使用 3つの検知モードをサポートする非パルス式の車載レーダーシステム Tesla AIモデルの差別化（Differentiation）テスラは自律ロボットと自動車を動かすための基盤AIモデルを生み出すことを目標としている両方とも周辺環境を認識し周囲を探索する必要があるため、同じ種類のAIモデルを両方に適用できるこのモデルの推論には低消費電力と短いレイテンシが必要で、ハードウェア制約のためテスラが提供可能なモデルの最大サイズは大きく制限されるすべての企業の中でも、テスラはディープラーニングニューラルネット向けに利用可能な最大級のデータセットを保有している路上の各自動車はセンサーと画像を使ってデータを収集し、道路上のテスラEVの台数と掛け合わせると非常に膨大なデータセットになるテスラはこのデータ収集を"Fleet Scale Auto Labeling"と呼ぶ各テスラEVは、動画、内部IMU（慣性計測装置）データ、GPS、走行距離などの高密度センサーデータの45〜60秒のログクリップを取得し、テスラの訓練サーバーへ送信するテスラは自社が収集するデータのごく一部しか使っていないテスラは、推論上の制約のため、与えられたモデルサイズ内で可能な最高精度を達成するべくモデルを過剰に訓練することで知られている

(semianalysis.com)

9 ポイント投稿者 xguru 2023-07-04 | 3件のコメント | WhatsAppで共有

テスラは世界最高クラスのAI企業の1つになることを目指している
もちろん、まだ最高の自動運転を実現したわけでもなく、生成AIの世界でもテスラの存在感は大きくないが..
テスラは現在、社内に4,000基のV100と16,000基のA100規模の比較的小さな社内AIインフラを持っている
- MicrosoftやMetaは10万基以上のGPUを保有しており、この数をさらに2倍に増やそうとしている
テスラの脆弱なAIインフラは、一部には社内D1訓練チップの遅延が原因となっている
しかし今、その状況は急速に変わりつつある
テスラは1.5年でAI容量を10倍以上に増やしている
一部は自社機能向けだが、一部はX.AI向けでもある
テスラは2016年から自動車向けに、2018年からデータセンター向けに独自のAIチップを設計してきた
これまでは生産できていなかったが、2023年時点では増産中
このアーキテクチャはテスラ独自のユースケースには適しているが、LLMには有用ではない（画像ネットワークに集中）

Tesla HW 4.0、第2世代FSDチップ

テスラ車内でAI推論を行うチップはFSDチップと呼ばれる
テスラは完全自動運転に車両側で膨大な性能は必要ないと考えているため、車載チップの性能はかなり制限されている
さらにテスラは大量販売を行うため、Waymo/Cruiseよりもはるかに厳しいコスト制約がある
Waymo/Cruiseは開発および初期テスト時に10倍以上高価なフルサイズGPUを使い、さらに高速で高価なSoCを作っている
第2世代チップは2023年2月から販売される車両に適用中
第1世代はSamsungの14nmプロセスで、3つのクアッドコアクラスタから構成される12個のArm Cortex-A72（2.2Ghz）
第2世代は5つのクアッドコアクラスタから構成される20個のArm Cortex-A72
第2世代で最も重要な部分は3つのNPUコア
- 3つのコアはそれぞれ32MiB SRAMを使用してモデルの重みとActivationを保存
- 各サイクルごとに256バイトのアクティベーションデータと128バイトの重みデータがSRAMからMAC（Multiply Accumulate Unit）へ読み込まれる
- MACはグリッドとして設計され、各NPUコアは96x96グリッドを持ち、合計9,216個のMACがあり、クロックサイクル当たり18,432オペレーションが可能
- 2.2Ghzで動作するNPUにより、計算性能は121.641 TOPS（trillion operations per second）
第2世代FSDチップは256GB NVMeストレージと16GB Micron DDR6（14Gbps）を搭載し、224GB/s転送量の128bitメモリバス上に構成されている
- 転送量は第1世代比で3.3倍に向上
HW 4.0には2個のFSDチップが入る
HW4ボードの性能向上により、消費電力は増加（HW3の2倍）
HW4の性能向上にもかかわらず、テスラはHW3でもFSDをサポートしたいと考えている。既存のHW3ユーザーのうちFSD購入者がretrofit（改造）を必要としないようにするため
インフォテインメントシステムはAMD GPU/APUを利用。FSDチップと同じボード上にある（以前は別のドーターボードにあった）
HW4プラットフォームは12台のカメラをサポート。1台は冗長化用で、11台を実際に使用
- 以前は前面カメラハブに低解像度1.2メガピクセルカメラ3台を使っていたが、新プラットフォームでは5メガピクセルカメラ2台を使用
テスラは現在、LIDARおよびカメラ以外のセンサーを使っていない
以前はradarを使っていたが、中期世代から削除された
- これにより車両製造コストを大きく下げ、純粋なカメラのみを使う自動運転車が可能だと考えて最適化している
- もちろん、実用的なradarがあればカメラシステムと統合すると話したことはある
HW4プラットフォームにはPhoenixという独自設計のRadarが搭載予定
- PhoenixはRadarシステムとカメラシステムを組み合わせ、より多くのデータを活用してより安全な車両を作ることを目標としている
- Phoenixレーダーは76-77Ghzスペクトラムを使用
- 3つの検知モードをサポートする非パルス式の車載レーダーシステム

Tesla AIモデルの差別化（Differentiation）

テスラは自律ロボットと自動車を動かすための基盤AIモデルを生み出すことを目標としている
両方とも周辺環境を認識し周囲を探索する必要があるため、同じ種類のAIモデルを両方に適用できる
このモデルの推論には低消費電力と短いレイテンシが必要で、ハードウェア制約のためテスラが提供可能なモデルの最大サイズは大きく制限される
すべての企業の中でも、テスラはディープラーニングニューラルネット向けに利用可能な最大級のデータセットを保有している
路上の各自動車はセンサーと画像を使ってデータを収集し、道路上のテスラEVの台数と掛け合わせると非常に膨大なデータセットになる
テスラはこのデータ収集を"Fleet Scale Auto Labeling"と呼ぶ
各テスラEVは、動画、内部IMU（慣性計測装置）データ、GPS、走行距離などの高密度センサーデータの45〜60秒のログクリップを取得し、テスラの訓練サーバーへ送信する
テスラは自社が収集するデータのごく一部しか使っていない
- テスラは、推論上の制約のため、与えられたモデルサイズ内で可能な最高精度を達成するべくモデルを過剰に訓練することで知られている

3件のコメント

wkwnqlw 2023-07-05

テスラは自動運転ソフトウェアをすでに2年前からベータ版として提供しています。次のバージョンからは正式サービスとなる予定です。
初期バージョンは非常に不十分でしたが、現在提供されているソフトウェアは一般的な人間の水準を超えたと語る人が徐々に増えています。現在、テスラの自動運転ソフトウェア（FSD）は、人間より事故率が約3倍低いです。

bbongcol 2023-07-04

「クロックサイクルあたり1832オペレーション可能」には誤字があります。原文では18,432オペレーションとなっています。

xguru 2023-07-04

有料記事なので後半は見られませんが、前半だけでも面白かったので一度訳してみます。

TeslaのAI容量拡張 - H100、Dojo D1、D2、HW 4.0、X.AIおよびクラウドサービスプロバイダー

Tesla HW 4.0、第2世代FSDチップ

Tesla AIモデルの差別化（Differentiation）

関連記事

3件のコメント