LLMをゼロから完全に訓練する
- Rekaで強力なマルチモーダル言語モデルの訓練に成功した経験について、多くの関心が集まっている。
- インフラ構築と大規模言語モデルおよびマルチモーダルモデルをゼロから訓練する過程での課題と教訓を共有する。
- この投稿が多くの人にとって興味深く、教育的なものであってほしい。
LLM時代のハードウェアくじ
- モデル訓練のための最初の必須要件は、計算能力を確保することだ。
- コンピューティングプロバイダーの不安定さと、クラスター、アクセラレータ、接続性の品質差に驚かされた。
- ハードウェアの品質差は大きく、訓練において実際に「ハードウェアくじ」のようなものになっている。
GPU対TPU
- Rekaでは主にGPUを使ってモデルを訓練している。
- GoogleでTPUを使っていた経験と比べると、GPUの故障率の高さに驚かされた。
- ハードウェアチームの力量が重要であり、これは「ハードウェアくじ」という概念をさらに強める。
マルチクラスター構成の苦痛
- 複数のクラスターで新しい環境を設定しなければならないという発想はなじみが薄かった。
- 複数クラスターのアクセラレータプールを持つことは避けられない。
- 大規模データを扱ううえで不便さがあり、データ複製は大規模環境では簡単ではない。
野生のコード
- T5XとMeshTensorflowは気に入っていたコードベースだったが、Google外ではサポートが少なく、使いにくかった。
- より扱いやすいPyTorchを選んだ。
- 外部のコードベースの品質はGoogle内部のものに比べて見劣りすると感じた。
もっと非原則的に、もっとYoloに
- 本来であればモデルは体系的にスケールさせるべきだが、スタートアップでは計算資源が少ないため、多くのYolo実行を行う。
- 限られた試行で強力なモデルを訓練するのは挑戦的だ。
要約
- 実地での経験は興味深い一方で、苦しいものでもあった。
- 計算資源の不足と不安定なプロバイダーのため、予想以上に難しかったが、技術力で乗り越えた。
- 会社を立ち上げ、資金を集め、チップを購入し、Gemini pro/GPT 3.5と競い、他の多くを上回るまでの過程のほんの一部を語っている。
GN⁺の意見
- この記事は、スタートアップが大規模言語モデルをゼロから訓練する過程で直面する現実の問題と課題をよく示している。これは初級ソフトウェアエンジニアに現実的なインサイトを与えうる。
- ハードウェア選定の重要性と、それに伴う故障率やサポート水準の違いは、スタートアップや小規模企業が大きなプロジェクトを始める際に必ず考慮すべき事項だ。
- この記事は、Googleのような大企業のインフラと比べて、スタートアップが直面する技術的制約を強調している。これはスタートアップが技術選定を行う際に慎重であるべき理由を示している。
- スタートアップが大規模モデルを訓練するために必要なインフラとツールを構築する過程は、非常に複雑で困難になりうることを示唆している。これはクラウドサービスプロバイダーの選定や自前ハードウェア構築の判断において重要な考慮事項だ。
- 技術的な問題や課題にもかかわらず、スタートアップが技術力で困難を克服し、成功した結果を得られるという前向きなメッセージを伝えている。
1件のコメント
Hacker Newsのコメント