2 ポイント 投稿者 GN⁺ 2024-03-19 | 2件のコメント | WhatsAppで共有
  • AIブーム以降、Nvidia GPUの需要が急増する中、新しいBlackwell世代は大規模モデルの学習・デプロイ向け供給者としての地位をさらに強化する発表
  • 最初のBlackwellチップGB200は今年後半に出荷予定で、AI性能はH100が属するHopper世代の4 petaflopsから20 petaflopsへ向上
  • GB200は2基のB200 Blackwell GPUとArmベースのGrace CPUを組み合わせたもので、Amazon・Google・Microsoft・Oracleがクラウドでのアクセスを販売予定
  • 新ソフトウェアNIMは既存のNvidia GPUでもAI推論のデプロイを容易にし、Nvidia enterpriseライセンスはGPUあたり年額4,500ドル
  • Nvidiaはチップ販売を超え、顧客を競合チップではなくNvidiaエコシステムに留めるソフトウェアプラットフォーム戦略を強化

Blackwell発表とNvidiaのAI供給者としての地位

  • Nvidiaは2024年3月18日、San Joseの開発者カンファレンスで新しいAIチップ世代とAIモデル実行用ソフトウェアを発表
  • 発表当時、企業やソフトウェア会社は依然として現世代のHopper H100および類似チップの確保をめぐって競争していた
  • Jensen Huang氏は「Hopperは素晴らしいが、より大きなGPUが必要だ」と述べた
  • OpenAIのChatGPTが2022年末にAIブームを引き起こして以降、Nvidiaの株価は5倍になり、総売上高は3倍以上に増加
    • MicrosoftやMetaのような企業は、Nvidiaの高性能サーバーGPU購入に数十億ドルを費やしている
    • Nvidiaの株価は月曜日の時間外取引で1%超下落した
  • GB200の構成と性能

    • 新しいAIグラフィックスプロセッサ世代の名称はBlackwellで、最初のBlackwellチップはGB200
    • Nvidiaは約2年ごとにGPUアーキテクチャを刷新し、大幅な性能向上を提供している
    • 2022年に発表されたHopperアーキテクチャはH100のようなチップに使われ、過去1年間に公開された多くのAIモデルがHopperベースで学習された
    • BlackwellベースのGB200のAI性能は20 petaflopsで、H100の4 petaflopsを上回る
    • 増加した演算性能は、AI企業がより大きく複雑なモデルを学習するために利用できる
    • チップには、ChatGPTを支える中核技術の一つであるtransformerベースAIを実行するためのtransformer engineが含まれる
    • Blackwell GPUはTSMCが製造し、別々に作られた2つのダイを1つのチップとして結合する
  • サーバーとクラウド提供

    • GB200は2基のB200 Blackwell GPUと1基のArmベースGrace CPUを組み合わせたもの
    • Nvidiaは72基のBlackwell GPUと他のNvidia部品をまとめたフルサーバーGB200 NVLink 2も提供
    • Amazon、Google、Microsoft、OracleはクラウドサービスとしてGB200へのアクセスを販売予定
    • Amazon Web Servicesは20,000個のGB200チップを備えたサーバークラスタを構築予定
    • このシステムは27兆パラメータモデルをデプロイでき、報道で1.7兆パラメータとされるGPT-4よりはるかに大規模
    • NvidiaはGB200またはそれを使用するシステムの価格を公表していない
    • アナリスト推定では、HopperベースのH100はチップあたり25,000〜40,000ドルで、システム全体では最大200,000ドル
    • Nvidiaはサーバーラック全体を占有する完成システムの形でもB200グラフィックスプロセッサを販売予定

NIMとNvidiaのプラットフォーム戦略

  • NvidiaはNvidia enterpriseソフトウェアサブスクリプションに、NIM(Nvidia Inference Microservice) という新製品を追加
  • NIMはAIソフトウェアを実行するプロセスである推論を、既存のNvidia GPU上でより簡単に行えるようにする
    • 推論は新しいAIモデルの初期学習より演算要求が低い
    • 企業がすでに保有している数億個のNvidia GPUを継続活用できるようにすることが目的
  • OpenAIのような会社からAIの結果をサービスとして購入する代わりに、自社AIモデルを実行したい企業がNIMの主な対象
  • Nvidiaベースのサーバー購入顧客をNvidia enterpriseサブスクリプションにつなげることが中核戦略
    • ライセンス費用はGPUあたり年額4,500ドル
  • モデルのデプロイと開発者の利用方法

    • NvidiaはMicrosoft、Hugging FaceのようなAI企業と協力し、AIモデルが互換性のあるNvidiaチップ全体で動作するよう調整する予定
    • 開発者はNIMを使うことで、長い設定プロセスなしに自社サーバーやクラウドベースのNvidiaサーバー上でモデルを効率的に実行できる
    • Manuvir Das氏は、既存コードでOpenAIを呼び出していた部分を、Nvidiaから受け取ったNIMを指すように1行変更する方式だと述べた
    • このソフトウェアはクラウドサーバーだけでなく、GPU搭載ノートPCでのAI実行も支援するとNvidiaは説明
  • チップ企業からソフトウェアプラットフォームへ

    • NIMは、顧客が競合チップではなくNvidiaチップに留まる理由をさらに加える製品
    • Nvidiaは傭兵的なチップ供給者にとどまらず、他社がソフトウェアを構築できるプラットフォーム提供者に近づいている
    • Huang氏は「Blackwellはチップではなく、プラットフォームの名前だ」と述べた
    • Das氏は、過去には販売可能な商用製品はGPUであり、ソフトウェアはGPU活用を助ける役割だったが、今やNvidiaには商用ソフトウェア事業が生まれたと述べた

2件のコメント

 
corelyai 2024-03-20
  • Nvidia開発者カンファレンス: Blackwellチップと未来技術の紹介
  • Nvidiaは、毎秒10テラバイトのデータを転送する1つの巨大なチップを実現するため、2つのダイに隣接する280億個のトランジスタを備えた革新的なプラットフォームであるBlackwellを紹介し、Hopperとのフォームファクタ互換性を提供します。
  • 500億個のトランジスタを搭載したBlackwellのMVYリンクスイッチは、GPU間の最高速通信を可能にし、1つのラックでエクサフロップス級AIシステムを構築できるようにします。
  • Nvidiaは、AWS、Google、Oracle、Microsoftと提携し、さまざまなAIサービスを加速するとともに、Nvidia技術を各プラットフォームに統合すると発表しました。
  • Nvidiaは、生成AIソリューションとAIファクトリー構築のために、SAP、ServiceNow、Cohesity、Snowflake、Dellのような企業と協業するAIファウンドリーを公開しました。
  • Omniverse CloudをVision Proにストリーミングし、さまざまなデザインツール間のシームレスな統合とワークフローを支援するとともに、NvidiaはAIベースのロボット向けにProject GR00T、Isaac Lab、Osmoを紹介しています。
  • Jetsonで動作するDisneyのbdxロボットが特別出演し、Isaac Simで学習機能を披露します。

corely.aiによるCNET動画の要約です (https://www.youtube.com/watch?v=bMIRhOXAjYk)

 
GN⁺ 2024-03-19
Hacker News の意見
  • キーノートの現場とカンファレンスの内容を見ると、Nvidia は優れたハードウェア企業がよくそうするように、スタックの上位へ上がっていっている
    もちろん、より大きなハードウェアも作り続けるだろうが、重要なのは LLM 向け Docker のような NIM を作っている点だ。NIM をダウンロードまたは購入して Nvidia ハードウェアへ簡単にデプロイできるコンテナシステムを構築中なので、これが AI スタートアップにどんな影響を与えるか見ていくのは面白そうだ

    • コンシューマ向け AI の大半にはあまり影響しなさそう。すでに UI と利便性が大きなセールスポイントだからだ
      より大きな脅威は、事業の中核機能が主流ソフトウェアに組み込まれる場合だ。最近は iPhone が背景削除をしてくれるので有料の背景削除需要が消えたように、AI 製品が既存の業務アプリの一機能として簡単に入ってしまうなら、その事業は時間を借りている状態
    • オープンソースの代替もある: https://github.com/geniusrise
    • AI 分野のすべての流れを追えているわけではないが、ここではどの種類の AI スタートアップを念頭に置いているのか気になる
      「インフラ」を提供する AI-as-a-Service スタートアップのようなところだろうか?
  • 「Nvidia が傭兵的なチップ供給業者から、Microsoft や Apple のように他社がソフトウェアを作れるプラットフォーム提供者に近づいている」という方向性は、成長の観点では理解できる
    AI 向けプラットフォームサービスになれば Nvidia にとってより収益性は高いだろうが、すでに AWS や Microsoft とのようなパートナーシップとのバランスを取るのは難しい。今後は買収や競争向けのカスタムソリューションが出てきそうで、幸い Nvidia にとっては AI のかなりの部分がまだ CUDA に依存しているため、展開は興味深い

    • Nvidia は、顧客の半分であるハイパースケーラーは GPU と CUDA だけを使い、残りのロングテール顧客はより収益性の高い上位プラットフォームを使う世界を準備しているように見える
      顧客を一方へ強制するほどのレバレッジはなく、単に GPU だけを売るほうが楽だろうが、洗練された顧客は別のチップへ乗り換えられる一方で、プラットフォームは小規模顧客を囲い込む効果があることを分かっているようだ
    • 結局、反トラスト訴訟が起き、CUDA 標準を開くよう求められた後、AMD が競争相手になると思う
      Nvidia が望むなら、こうした訴訟を避けるために自主的に標準を開くこともできるし、個人的にはそれが賢明な選択だと思うが、歴史上ほぼすべての企業は自主的な開放ではなく訴訟を選んできた
    • AWS は ARM を強く推しているが、人々はいまだに x86/x64 コンピュートを大量に購入している
      AWS がニューラルネットワーク向けの独自ハードウェア+ソフトウェアソリューションを備えたとしても、CUDA プラットフォームから離れるには数年、もしかすると数十年かかるかもしれない
    • AMD/Intel GPU が Nvidia と同等の性能を持ち広く使われていたなら、Microsoft と AWS もそちらとパートナーシップを結んでいただろう
      Microsoft は OpenAI とも Mistral ともパートナーシップがある。現在の利便性が将来も維持される保証はなく、Nvidia もそれをよく分かっている
  • FP4 とは何だろう、4ビット浮動小数点なのか? だとすると、Hopper 比 30倍という比較グラフ [0] は少し誤解を招くものだった
    [0] https://youtu.be/Y2F8yisiS6E?t=4698

    • FP4 は 4ビット浮動小数点で、8ビット浮動小数点の2倍速い。FP6 もあり、FP8 より計算が速いわけではないが、6ビット形式によるより良いメモリ帯域幅とキャッシュ活用を利用できる
      一部の人は、4ビット LLM 関連のこの論文 [1] と結び付けて見ており、著者の中には Nvidia 社員も1人いる
      1: https://arxiv.org/pdf/2310.16836.pdf
    • 部分的にだけ誤解を招く。LLM では FP4 が FP8 の半分しか有用でないわけではないからだ
      FP4 で圧倒的な装置があるならそれを使い、精度低下を最小限にしながら速度向上を得られる。マーケティング的な創造性は混じっているが、実際の使用量を測る尺度として完全に間違っているわけではない
    • https://arxiv.org/pdf/2310.10537.pdf
      以前の記事でも取り上げられていた: https://news.ycombinator.com/item?id=37930663
    • 4ビットでどうして十分になり得るのか気になる。中間計算はより広い幅で行い、再び FP4 に下げるのだろうか?
    • その通り。精度認識型のトランスフォーマーエンジンの話があり、それが FP4 の利用をより簡単にする可能性はあるが、同じ条件で30倍速いわけではない
      実質的には、わずかに改善されたプロセスノード上に Hopper を2つ並べたものに近いので驚くことではなく、そうした新機能や増えたメモリを活用しない場合は、2.5倍程度のほうがより妥当に見える
  • 数年前に Bright Cluster Manager を買収したが、次の買収先はどこになるだろう? 顧客にフルスタックを提供しようとしているように見える

    • Canonical は熟した対象だ。Canonical はここ数年、Ubuntu とほかのツールをエンタープライズの世界で育てようとしてきたが、大きな成功は収められず、Nvidia 開発キットのかなりの部分は Ubuntu を中心に作られている
    • Run:AI https://news.ycombinator.com/item?id=39738342
    • Anthropic や Mistral を買収して AGI/ASI を作ることもできる
  • 2桁ペタフロップスが大量生産される時代だ
    「人間の脳の関連活動を再現するのに必要な計算能力は、複数の著者によって 10^12 から 10^28 FLOPS までと推定されている。」ペタフロップスは 10^15 だ。すごい時代だ

    • これで実現可能な核融合発電所を設計できるならうれしい。大半が広告ターゲティングに使われるなら、かなり失望しそうだ
  • SoftBank の孫正義氏は残念なことになった。2019年に Nvidia 株を31億ドル分持っていたが、今なら19倍の600億ドルになっていたはずだ
    AI とロボティクスに非常に楽観的だったが、時代を先取りしすぎていた

    • ささいな訂正: 孫正義氏
  • ここでいう「プラットフォーム企業」とは、マルチチップを意味しているのだろうか?
    単一ダイにそこまで多くのトランジスタを詰め込むのは非現実的になりつつあるので、論理的にはそう見える

    • 製品群の全体像はよく分からないが、Jensenが誇っていた物理的な数値や構成を見ると、実質的にメインフレーム式のゲームをしようとしているように見える
      独自シャーシ、独自のクラスタ相互接続網、独自ミドルウェア上で動く高級アプリケーションを囲い込もうとする方向だ。Mellanox買収を思い出す
    • 大規模データセンターに必要な主要チップすべてと、その上のソフトウェア層のかなりの部分を指す
      ハードウェアとしてはGPU、GPU-GPUファブリックであるNVLINK、CPU、NIC、ネットワークファブリックであるInfiniBand、スイッチが含まれる。さらにCUDA、Riva、Megatron、Omniverseのような複数のソフトウェアスタック層を、人々がその上に構築するよう貢献し、推進している
    • いや、これはレントシーキングを意味する
      AWSが世界中のコンピュータまで売ると想像すればいい。今後はそこでしか借りられない構造になる
  • 業界がいつごろLLMのスケーラビリティ問題に取り組み始めるのか気になる。Nvidiaにとっては、より大きく優れたGPUを出し続けるのが当然利益になるが、共通の利益は何なのか?
    十分なリソースがあれば良い言語モデルが可能だということはすでに証明された。次の課題は、平均的なユースケースに想像しがたい量のリソースを要求しないソリューションへ、これらのモデルを組み込むことだ

    • 無駄の多いソフトウェア開発は簡単で、開発の勢いを保ってくれる。成長が王である限り、速くて雑なやり方は、よく最適化された小さなシステムに常に勝つ
      これはAIだけの問題ではなく、私たちが使うすべてのソフトウェアの問題だ。最適化して、より小さなシステムに合わせようとする集団は2種類しかない。情熱的なプログラマーと、その仕事をするよう報酬を受けている人たちだ。例えば携帯電話メーカーのソフトウェアチームのようなところだ
  • 時間外取引で株価は変わらなかった。大きな発表で大きく跳ねると期待していた人が多かった

    • 株価はNvidiaの開発状況はもちろん、どの企業にとっても短期指標としては良くない。Nvidiaは非常にうまくやっている
      ただしその株は本当にばかげているほど割高
    • 時価総額2兆ドルなら、すでにすべて織り込み済みだ
    • そういう急騰を望むなら、業績見通しを待っているはずだ。今は極度に買われ過ぎの状態で、1株1,000ドルを超えて動くのに苦労している
      当面はMicrosoftとOpenAIがこのチップを使うだろうが、長期的にはこれを見ながら自社チップを作り、Nvidiaへの依存度を下げようとし、契約が終われば乗り換える準備をするだろう
    • Nvidiaは秘密めいた銘柄ではない。株の中に隠れた価値があるなら、すでに大半は織り込まれている可能性が高い
    • それだけでなく、取引時間中にも勢いが落ちた。過熱しすぎて、今ではどんなニュースでもさらに押し上げるのが難しい状態だったのかもしれない
  • 消費電力を25分の1にしたと主張しているが、それが正しいはずがあるのか? この数字がどこから出てきたのか知っている人はいる?

    • ここ[1]から出た数字だ。基本的にはH 100ラック対B 8ラックの比較だ
      ただし誤字がある可能性もあると思う。おそらく液冷対空冷まで含めた比較だろう
      [1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
    • リンク先の記事で読んだのか? 私は見つけられなかった
      おそらく性能向上5倍による効率改善と、今では1.7兆ではなく27兆パラメータを使えるという点により、同じ作業量を1/25の時間で終えられ、そのため消費電力削減と言っているのかもしれない。言われているように、最大消費電力そのものが25分の1に下がったというのは疑わしい