2 ポイント 投稿者 GN⁺ 2023-12-14 | 1件のコメント | WhatsAppで共有

Nvidia RTX 4090 と Apple MLX フレームワークの性能比較

  • Apple が Apple Silicon 向けの機械学習フレームワークを公開。
  • このフレームワークの性能をベンチマークするために Whisper のサンプルを使用。
  • Python コードを通じて音声ファイルを対象に性能測定を実施。

結果

  • 10分の音声ファイルを処理するのに、M1 Pro は 216 秒、Nvidia 4090 は 186 秒を要した。
  • Nvidia 最適化モデルを使うと 8 秒で処理可能。
  • Macbook と PC のハードウェア仕様も詳しく記載されている。

驚異的な速度の Whisper

  • HackerNews で話題になった記事で、ユーザーが Nvidia 4090 で 8 秒で処理した事例を共有。
  • MacOS でも実験を行っており、結果は MLX バージョンより遅い。

M2 Ultra / M3 Max アップデート

  • M2 Ultra と M3 Max で同じ音声ファイルを処理した結果、M1 よりはるかに高速だが、2つの GPU 間ではほぼ同等の速度を示した。

比較

  • さまざまな要因により正確ではない可能性はあるが、おおまかな性能比較は可能。

消費電力

  • PC と Macbook の消費電力差を測定。
  • Nvidia 4090 が動作中のときと待機時の PC の消費電力差は 242W、M1 GPU コアが動作中のときと待機時の Macbook の消費電力差は 38W。

なぜこのテストを行うのか?

  • https://podpodgogo.com でポッドキャスト検索エンジンを運営しており、数千本のエピソードを書き起こして全文検索を可能にし、データマイニングを行っている。

GN⁺の見解:

  • この記事で最も重要なのは、Apple Silicon 向け機械学習フレームワークの性能が、Nvidia の最新コンシューマー向けグラフィックカードと比べても競争力があるという点。
  • 特にノートPCでこの性能を出せる点は非常に興味深く、機械学習作業で携帯性と性能のバランスを求めるユーザーにとって魅力的な選択肢になり得る。
  • 消費電力の面でも Macbook が比較的効率的であることが強調されており、環境面での持続可能性やコスト効率を重視するユーザーにとって重要な情報となる。

1件のコメント

 
GN⁺ 2023-12-14
Hacker Newsの意見
  • OpenAI Whisper リポジトリを使っているように見える。公正な比較のためには、MLX を 4090 上で動く faster-whisper や insanely-fast-whisper と比較すべき。

    • 実運用では、faster-whisper は前のセグメントのテキストを含めると品質がより良くなることがわかった。
    • faster-whisper は OpenAI/whisper よりおよそ 4〜5 倍速く、insanely-fast-whisper は faster-whisper よりさらに 3〜4 倍速い。
    • 4090 上で動かした Whisper がかなり最適化不足でない限り、こうした結果は疑わしい。
  • Apple MLX の最新リリースを活用しており、Apple 向けに特化した最適化を使うコードである。

    • MLX は Mac と iOS で Swift バインディングがリリースされれば注目を集めると予想される。
    • 現時点では C++20 のコンパイル問題があるかもしれない。
  • Whisper が逐次的な性質と整数演算のために選ばれたのか、またこうした結果が他のモデルにも当てはまるのか疑問。

    • MLX にはまだ最適化されていない演算がある。
    • CPU/GPU に直結された非常に高速な RAM の利点と、その結果としてのレイテンシや共有アクセス性の観点から見て印象的な数字である。
    • M3 Max システムのコストが 4090 の約 2 倍であることは考慮に値する。
  • Mac M1 で Whisper を動かすのは簡単だが、デフォルトでは MLX を使わない。

    • MLX を使うように設定するために必要なことを把握するのに数時間費やした。
    • GPU 付き VM を借りて、数分で Whisper を動かし始めた。
  • X のような作業に対して何が最良の選択かについては多くの議論があるだろうが、低消費電力でこのレベルの性能を提供するのは魅力的である。

  • Apple の Vision Pro を考えると、ノートPCではそれほど意味がないかもしれないが、電力を大量に消費するヘッドセットでは大きな利点になる。

  • 優れたオープンソースの文字起こしおよび話者識別アプリやワークフローについて助けを求めている。

    • いくつか見てみたが、うまく動作せずクラッシュする。
  • ほとんどの GPU で 1 時間分の音声を 1 分以内に文字起こしできる Whisper 派生リポジトリの利用を勧める。