自分でファインチューニングした Llama 2 で GPT-3.5/4 を置き換える
(news.ycombinator.com)- レシピ分類の例で Llama 2 7B をファインチューニングしたところ、テストセット基準で GPT-4 のラベルと 95% 一致する結果が得られた
- ファインチューニングは、入力/出力の例を通じて望む作業方法を モデルの重みに学習させる方式であり、50 個の例でも可能だが、通常は 1,000 個以上を目標にする
- プロンプトは素早い反復改善と単一の大規模モデル運用に有利だが、ファインチューニングは小規模モデルでも特定の作業に強く適合させられる
- ファインチューニングした Llama 7B はトークンあたりのコストが GPT-3.5 より 50 倍安く、十分に狭いタスクではコスト対性能が大きく向上しうる
- 200 万件のレシピ分類コストは GPT-4 が 2 万 3,000 ドル、GPT-3.5 が 1,000 ドル超である一方、このファインチューニングモデルは 19 ドルでデータセット全体を処理した
ファインチューニングがプロンプトと異なる点
- 公開 LLM のファインチューニングへの関心が Hacker News で高まる中、レシピ分類の例のためのノートブック一式が公開された
- ノートブックは OpenPipe の例 にあり、データラベリング、ファインチューニング、効率的な推論実行、コスト/性能評価を扱っている
- ファインチューニングは、プロンプトより強い形の指示方法と見なせる
- 毎回テキストの指示をプロンプトに入れる代わりに、入力/出力の例のペアによって作業方法を モデル自体に学習させる
- 50 個の例だけでも動作することはあるが、可能であれば 1,000 個以上を確保する方が望ましい
- プロンプトは依然として運用と実験で大きな利点がある
- ラベリングや再学習なしに、指示をより簡単かつ素早く反復改善できる
- 複数の小さなファインチューニングモデルを配備するより、1 つの大きなモデルを配備して挙動だけを調整する方が運用上は単純である
- 小さなファインチューニングモデルはそれぞれの利用率が低くなる可能性がある
コスト・性能の例と OpenPipe
- ファインチューニングの最大の利点は、モデルの振る舞いをより効果的に誘導して 小さなモデルを使える点にある
- 小さなモデルは応答速度を高め、推論コストを下げられる
- ファインチューニングした Llama 7B モデルは、トークンあたりのコスト基準で GPT-3.5 より 50 倍安い
- レシピ分類の例では all-recipes データセット の 200 万件のレシピを対象にコストを比較している
- GPT-4 で分類すると 2 万 3,000 ドルかかる
- GPT-3.5 でも 1,000 ドル超のコストが発生する
- ファインチューニングしたモデルは GPT-4 と近い性能を示し、データセット全体の実行コストは 19 ドルである
- テストセットで学習した 7B モデルは GPT-4 のラベルと 95% 一致した
- 一致しなかった 5% のケースは、正解自体が実際には曖昧な場合が多い
- OpenPipe は、エンジニアがファインチューニングをより簡単に導入できるよう支援する オープンソース製品である
- プロジェクトは OpenPipe GitHub リポジトリ で公開されている
- 提供されているファインチューニング情報自体は OpenPipe 製品に依存していない
1件のコメント
Hacker Newsのコメント