3 ポイント 投稿者 GN⁺ 2023-09-24 | 1件のコメント | WhatsAppで共有
  • 大規模言語モデル(Large Language Models, LLMs)のデプロイの難しさに関する記事: サイズと計算要件のため、多くの研究チーム、特に低レイテンシ性能が必要なアプリケーションにとって利用が難しい
  • こうした課題を克服するため、ファインチューニングや蒸留を用いて訓練された小規模な専門モデルがしばしばデプロイされる。しかし、これらの手法にも、人間が生成したラベルや大量のラベルなしデータが必要になるなど、独自の制約がある
  • 著者らは「段階的蒸留」という新しいメカニズムを紹介しており、これにより、標準的なファインチューニングや蒸留アプローチで必要とされるよりもはるかに少ない訓練データで、小規模なタスク特化モデルを訓練できる
  • このメカニズムは、ベンチマークデータセットの例の80%のみを使用して、770MパラメータのT5モデルが、few-shotでプロンプトされた540BのPaLMモデルを上回ることを可能にし、標準的なアプローチで必要とされるものよりはるかに少ない訓練データで、700倍超のモデルサイズ削減を示している
  • 段階的蒸留の中核となるアイデアは、LLMsから情報量の多い自然言語の推論を抽出し、それを使って小規模モデルをより効率的に訓練すること
  • このプロセスは2つの主要な段階で構成される。第1に、few-shotのCoTプロンプトを使用してLLMsから推論を抽出し、第2に、訓練プロセスをマルチタスク問題として構成して、その推論を小規模モデルの訓練に組み込む
  • 著者らは、3つの異なるNLPタスクにまたがる4つのベンチマークデータセットで実験を行い、段階的蒸留手法が、標準的なファインチューニングと比べてはるかに少ない訓練データで、より優れた性能を達成することを発見した
  • 段階的蒸留メカニズムは、Google Cloud PlatformであるVertex AIでプライベートプレビューとして利用可能
  • この研究は、Cheng-Yu Hsieh、Chun-Liang Li、Chih-Kuan Yeh、Hootan Nakhost、Yasuhisa Fujii、Alexander Ratner、Ranjay Krishna、Chen-Yu Lee、そしてTomas Pfisterによって実施された。

1件のコメント

 
GN⁺ 2023-09-24
Hacker Newsの意見
  • サイズと実用性の最適なバランスにより、より小さな専門モデルがほとんどのアプリケーションを支配すると予想されます。
  • T5を用いた蒸留モデルは、エンコーダー・デコーダーアーキテクチャが依然として有効であり得ることを示唆しています。
  • アプローチが過度に複雑ではないため、Large Language Models (LLMs) 分野にはまだ探求すべきことが多いことを示しています。
  • LLMsの未来には、このようなスタイルで訓練された専門モデルの混合が含まれる可能性があります。
  • LLM、Machine Learning (ML)、Artificial Intelligence (AI) 分野における活動と進歩の水準は印象的です。
  • Nvidiaのようなハードウェアが高価な場合、このような最適化には価値があります。
  • 最も効果的なモデルはマルチモーダルであり、慎重にカスタマイズされた中核カリキュラムで訓練される可能性が高いです。
  • LLMの訓練データが蒸留モデルやタスク別モデルより少ない理由についての疑問があります。
  • Reinforcement Learning from Human Feedback (RLHF) が最先端のLLMと同等の性能を発揮するために、より小さなモデルにも必要かどうかという推測があります。
  • 大規模LLMでは多くの容量が使われていないのか、それとも小規模言語モデルが単に推論タスクを模倣しているだけなのかは不明です。
  • 最大144GBの利用可能なGPUメモリをサポートするMac Studioは、LLMサービス分野で利用される可能性があります。
  • Facebookがユーザーのすべてのチャット履歴でLLMを訓練できるのではないかという提案があります。