5 ポイント 投稿者 GN⁺ 2024-03-08 | 1件のコメント | WhatsAppで共有

LLMをゼロから完全に訓練する

  • Rekaで強力なマルチモーダル言語モデルの訓練に成功した経験について、多くの関心が集まっている。
  • インフラ構築と大規模言語モデルおよびマルチモーダルモデルをゼロから訓練する過程での課題と教訓を共有する。
  • この投稿が多くの人にとって興味深く、教育的なものであってほしい。

LLM時代のハードウェアくじ

  • モデル訓練のための最初の必須要件は、計算能力を確保することだ。
  • コンピューティングプロバイダーの不安定さと、クラスター、アクセラレータ、接続性の品質差に驚かされた。
  • ハードウェアの品質差は大きく、訓練において実際に「ハードウェアくじ」のようなものになっている。

GPU対TPU

  • Rekaでは主にGPUを使ってモデルを訓練している。
  • GoogleでTPUを使っていた経験と比べると、GPUの故障率の高さに驚かされた。
  • ハードウェアチームの力量が重要であり、これは「ハードウェアくじ」という概念をさらに強める。

マルチクラスター構成の苦痛

  • 複数のクラスターで新しい環境を設定しなければならないという発想はなじみが薄かった。
  • 複数クラスターのアクセラレータプールを持つことは避けられない。
  • 大規模データを扱ううえで不便さがあり、データ複製は大規模環境では簡単ではない。

野生のコード

  • T5XとMeshTensorflowは気に入っていたコードベースだったが、Google外ではサポートが少なく、使いにくかった。
  • より扱いやすいPyTorchを選んだ。
  • 外部のコードベースの品質はGoogle内部のものに比べて見劣りすると感じた。

もっと非原則的に、もっとYoloに

  • 本来であればモデルは体系的にスケールさせるべきだが、スタートアップでは計算資源が少ないため、多くのYolo実行を行う。
  • 限られた試行で強力なモデルを訓練するのは挑戦的だ。

要約

  • 実地での経験は興味深い一方で、苦しいものでもあった。
  • 計算資源の不足と不安定なプロバイダーのため、予想以上に難しかったが、技術力で乗り越えた。
  • 会社を立ち上げ、資金を集め、チップを購入し、Gemini pro/GPT 3.5と競い、他の多くを上回るまでの過程のほんの一部を語っている。

GN⁺の意見

  • この記事は、スタートアップが大規模言語モデルをゼロから訓練する過程で直面する現実の問題と課題をよく示している。これは初級ソフトウェアエンジニアに現実的なインサイトを与えうる。
  • ハードウェア選定の重要性と、それに伴う故障率やサポート水準の違いは、スタートアップや小規模企業が大きなプロジェクトを始める際に必ず考慮すべき事項だ。
  • この記事は、Googleのような大企業のインフラと比べて、スタートアップが直面する技術的制約を強調している。これはスタートアップが技術選定を行う際に慎重であるべき理由を示している。
  • スタートアップが大規模モデルを訓練するために必要なインフラとツールを構築する過程は、非常に複雑で困難になりうることを示唆している。これはクラウドサービスプロバイダーの選定や自前ハードウェア構築の判断において重要な考慮事項だ。
  • 技術的な問題や課題にもかかわらず、スタートアップが技術力で困難を克服し、成功した結果を得られるという前向きなメッセージを伝えている。

1件のコメント

 
GN⁺ 2024-03-08
Hacker Newsのコメント
  • スタートアップとは、少人数で大規模な資金を持ち、学習クラスターに投資する組織を意味する。記事では、多くのスタートアップや既存企業がサーバーを借りて運用していると説明している。大半の LLM(Large Language Model)開発者は、似たようなハードウェアとデータを使って、テキストと画像データで学習を進めている。それぞれの LLM は独自の「秘密のソース」を持っており、これが LLM の出力品質の差を生んでいる。しかし全体として、こうした過程はエネルギーを大量に消費する重複作業のようにも見える。
  • この文章は、Google の PaLM、UL2、Flan、Bard などで技術リーダーを務めていた Yi Tay が、Reka の共同創業者となり、独立したスタートアップとして LLM を学習する経験について語ったもの。Yi Tay がこの投稿を書くきっかけになった会話はここに記録されている。
  • この投稿で Reka.ai を知った。Reka.ai の LLM は Hacker News ではあまり議論されていなかった。興味本位で、Reka Flash のチャットインターフェースを ChatGPT 4、Gemini Advanced、Claude 3、Mistral Large と比較して試してみた。結果はここにある。全体として、Reka Flash は他の LLM より目立って悪くも良くもない。もちろん、確かな判断にはさらに多くのテストが必要だ。
  • 筆者は、読者が「wild」を「Google ではない場所」と理解すると想定している。この文章は Google のインフラチームとハードウェアチームに大きく功績を帰しており、Google の内部関係者が別の場所で同様の仕事をすることになった際の視点を読みたいと思わせる。
  • Reka.AI のメインページは、トークン課金の一般的な ChatGPT クローン、つまり LLM のように見える。これが他社とどう違うのかは明確ではない。価格は ChatGPT 3.5-Turbo と似たようなものに見える。
  • ゼロから LLM を学習することは、生のハードウェア改善と同じくらい、AI の進化の速度と範囲にとって重要な問題だ。ブログは面白いが、やや浅く技術的ではなく、GPU クラスターを扱った経験がある人にとっては驚くような内容はない。Google の外で LLM のために Jax を PyTorch より勧める理由もはっきりしない。この新しい会社が、自らの学習の冒険についてもっと技術的な報告を公開してくれることを期待したい。
  • 物語のごく一部しか扱っていないが、会社を立ち上げ、資金を集め、チップを購入し、1年も経たないうちに GPT 3.5 レベルの LLM を構築して、多くの他製品を上回っている。チップ/クラウド GPU にどれほどの予算が必要だったのか気になる。おおよそ 200 万〜500 万ドルくらいだろうか?
  • 適切な背景や経歴のない小さなスタートアップが、どうやって LLM 製品向けの資金を確保しているのかは大きな疑問だ。LLM スタートアップの世界は、シード資金や調達の前提条件として、名のある勤務先での職歴や適切な経歴、そして製品が立ち上がる前から投資する用意のある強力な投資家ネットワークを持つヘッジファンドやプライベートエクイティの世界に近いように見える。
  • タイトルは "ground zero" ではなく "from the ground up" であるべきではないかと思う。
  • 学習データの過程についての話はとても興味深いが、もっと詳しく聞きたい。