3 ポイント 投稿者 GN⁺ 2023-09-13 | 1件のコメント | WhatsAppで共有
  • レシピ分類の例で Llama 2 7B をファインチューニングしたところ、テストセット基準で GPT-4 のラベルと 95% 一致する結果が得られた
  • ファインチューニングは、入力/出力の例を通じて望む作業方法を モデルの重みに学習させる方式であり、50 個の例でも可能だが、通常は 1,000 個以上を目標にする
  • プロンプトは素早い反復改善と単一の大規模モデル運用に有利だが、ファインチューニングは小規模モデルでも特定の作業に強く適合させられる
  • ファインチューニングした Llama 7B はトークンあたりのコストが GPT-3.5 より 50 倍安く、十分に狭いタスクではコスト対性能が大きく向上しうる
  • 200 万件のレシピ分類コストは GPT-4 が 2 万 3,000 ドル、GPT-3.5 が 1,000 ドル超である一方、このファインチューニングモデルは 19 ドルでデータセット全体を処理した

ファインチューニングがプロンプトと異なる点

  • 公開 LLM のファインチューニングへの関心が Hacker News で高まる中、レシピ分類の例のためのノートブック一式が公開された
    • ノートブックは OpenPipe の例 にあり、データラベリング、ファインチューニング、効率的な推論実行、コスト/性能評価を扱っている
  • ファインチューニングは、プロンプトより強い形の指示方法と見なせる
    • 毎回テキストの指示をプロンプトに入れる代わりに、入力/出力の例のペアによって作業方法を モデル自体に学習させる
    • 50 個の例だけでも動作することはあるが、可能であれば 1,000 個以上を確保する方が望ましい
  • プロンプトは依然として運用と実験で大きな利点がある
    • ラベリングや再学習なしに、指示をより簡単かつ素早く反復改善できる
    • 複数の小さなファインチューニングモデルを配備するより、1 つの大きなモデルを配備して挙動だけを調整する方が運用上は単純である
    • 小さなファインチューニングモデルはそれぞれの利用率が低くなる可能性がある

コスト・性能の例と OpenPipe

  • ファインチューニングの最大の利点は、モデルの振る舞いをより効果的に誘導して 小さなモデルを使える点にある
    • 小さなモデルは応答速度を高め、推論コストを下げられる
    • ファインチューニングした Llama 7B モデルは、トークンあたりのコスト基準で GPT-3.5 より 50 倍安い
  • レシピ分類の例では all-recipes データセット の 200 万件のレシピを対象にコストを比較している
    • GPT-4 で分類すると 2 万 3,000 ドルかかる
    • GPT-3.5 でも 1,000 ドル超のコストが発生する
    • ファインチューニングしたモデルは GPT-4 と近い性能を示し、データセット全体の実行コストは 19 ドルである
  • テストセットで学習した 7B モデルは GPT-4 のラベルと 95% 一致した
    • 一致しなかった 5% のケースは、正解自体が実際には曖昧な場合が多い
  • OpenPipe は、エンジニアがファインチューニングをより簡単に導入できるよう支援する オープンソース製品である
    • プロジェクトは OpenPipe GitHub リポジトリ で公開されている
    • 提供されているファインチューニング情報自体は OpenPipe 製品に依存していない

1件のコメント

 
GN⁺ 2023-09-13
Hacker Newsのコメント
  • GPT-3.5/4の代替として、Llama 2のモデルのファインチューニング利用に関する記事
  • 一部のユーザーは翻訳作業において、GPT-3.5がLlama 2より100倍安価で、Llama 7Bは質の低い翻訳を返すと指摘
  • OpenAIのGPT-3.5に対する攻撃的な価格戦略について、他のベンダーではなく自社モデルへの依存を促す動きではないかとの推測
  • GPTやその他のLLMの出力を内部代替モデルの学習に使う可能性について議論されており、本番規模で通常のAPIを利用する人々にとって費用対効果の高い解決策になり得る
  • ファインチューニングしたLlama 7BモデルがGPT-3.5より50倍安いという主張に疑問が呈され、一部のユーザーはそれはセルフホスティングでしか達成できないと示唆
  • ファインチューニングの有効性とLoRAを比べた際の疑問が提起
  • ファインチューニング済みLlamaモデルとGPT-3.5の比較は誤解を招くとするユーザーもおり、適切な推論レイテンシの実現やスケーラビリティの問題を挙げている
  • ファインチューニングしたLlama 2モデルの品質は必ずしもChatGPTより優れておらず、ファインチューニングには高品質なデータセットが必要だが、それを構築するのは容易ではない
  • GPTのfunction callingの一貫性とエラー率に疑問が呈されている
  • ユーザーは自分のモデルをファインチューニングするための最良のオープンソースLLMに関心を示している
  • ファインチューニング用データセットが入力/出力ペアであるべきか、それとも自己回帰型でもよいのか明確化を求める声
  • ユーザーは、特に初心者向けに、この種のモデルをファインチューニングする方法を学べる資料に関心を持っている
  • この記事は、ML/LLM分野に入門する人にとって価値ある資料と見なされている。