- 大規模言語モデル(Large Language Models, LLMs)のデプロイの難しさに関する記事: サイズと計算要件のため、多くの研究チーム、特に低レイテンシ性能が必要なアプリケーションにとって利用が難しい
- こうした課題を克服するため、ファインチューニングや蒸留を用いて訓練された小規模な専門モデルがしばしばデプロイされる。しかし、これらの手法にも、人間が生成したラベルや大量のラベルなしデータが必要になるなど、独自の制約がある
- 著者らは「段階的蒸留」という新しいメカニズムを紹介しており、これにより、標準的なファインチューニングや蒸留アプローチで必要とされるよりもはるかに少ない訓練データで、小規模なタスク特化モデルを訓練できる
- このメカニズムは、ベンチマークデータセットの例の80%のみを使用して、770MパラメータのT5モデルが、few-shotでプロンプトされた540BのPaLMモデルを上回ることを可能にし、標準的なアプローチで必要とされるものよりはるかに少ない訓練データで、700倍超のモデルサイズ削減を示している
- 段階的蒸留の中核となるアイデアは、LLMsから情報量の多い自然言語の推論を抽出し、それを使って小規模モデルをより効率的に訓練すること
- このプロセスは2つの主要な段階で構成される。第1に、few-shotのCoTプロンプトを使用してLLMsから推論を抽出し、第2に、訓練プロセスをマルチタスク問題として構成して、その推論を小規模モデルの訓練に組み込む
- 著者らは、3つの異なるNLPタスクにまたがる4つのベンチマークデータセットで実験を行い、段階的蒸留手法が、標準的なファインチューニングと比べてはるかに少ない訓練データで、より優れた性能を達成することを発見した
- 段階的蒸留メカニズムは、Google Cloud PlatformであるVertex AIでプライベートプレビューとして利用可能
- この研究は、Cheng-Yu Hsieh、Chun-Liang Li、Chih-Kuan Yeh、Hootan Nakhost、Yasuhisa Fujii、Alexander Ratner、Ranjay Krishna、Chen-Yu Lee、そしてTomas Pfisterによって実施された。
1件のコメント
Hacker Newsの意見