1 ポイント 投稿者 GN⁺ 2023-12-08 | 1件のコメント | WhatsAppで共有

要約: 人工知能のファインチューニング技術の探究

  • ファインチューニング技術の効果と難しさ
    • ファインチューニングはGPT-4の機能を補完し、速度とコスト効率の向上を約束する。
    • 実際にファインチューニングがどれほど効果的で難しいのかに関する情報不足を埋めるため、直接実験を行った。

問題の選定

  • Magic: The Gathering(MTG)ドラフトを通じたモデルの推論能力テスト
    • MTGは戦略的なカードゲームで、ドラフトはランダムなカードプールからカードを選びデッキを構築する方式。
    • ドラフトは推論と新しいデータへの理解が必要な複雑な作業であり、題材として適している。
    • 17landsというサービスが提供する大規模な履歴データを活用し、トッププレイヤーのドラフト選択を"ground truth"として使用。

結果と要約

  • ファインチューニング済み7Bモデルの性能
    • ファインチューニング済み7BモデルはGPT-4を上回り、人間レベルに近い性能を示した。
    • GPT-3.5をファインチューニングした方がより良い結果を示す可能性はあるが、コストが非常に高い。
    • ファインチューニングは依然として実験的なプロセスであり、特にプロンプトエンジニアリングに多くの時間がかかる。
    • 新しいカードセットに対してファインチューニングした後、未見のカードセットでも一般化能力を示した。

現場レポート: 方法と学習過程

  • データ構築
    • 17landsのCSVファイル形式データをテキスト形式に変換し、ファインチューニングに適した形にした。
    • データ整形は挑戦的で実験的なプロセスだった。
  • ファインチューニングの実行
    • GPUへのアクセス性の問題から、Runpodで時間貸しGPUを借りた。
    • axolotlを使ってファインチューニングの最適化を容易に実装した。
  • 評価
    • 実験開始前に評価基準を用意することが重要。
    • 言語モデルの評価基準設定は難しい場合がある。

主な教訓

  • ファインチューニングの効果
    • 新しいデータに対するファインチューニングは、精度とコストの面でGPT-4より優れている。
    • ファインチューニングを正しく行うには実験的なプロセスが必要で、プロンプトエンジニアリングより習得が難しい特殊技能である。

Magic関連の追加情報

  • ファインチューニング済みAIドラフトボットの性能
    • Magic Arenaのログに接続されたドラフトモデルを使って、ドラフト支援アプリを開発した。
    • ファインチューニング済みモデルが選択を生成し、GPT-4が説明を提供する。
    • 複数のAIドラフトボットをシミュレーションし、人間のドラフターに近い性能を示した。

GN⁺の見解

この記事で最も重要な点は、ファインチューニング技術が既存の大規模言語モデル(GPT-4など)の性能を上回る可能性を持ち、これによって特定タスクに対する人工知能の理解度と効率を大きく向上させられるということだ。この記事が興味深い理由は、実際の適用事例を通じてファインチューニングの具体的な過程とその効果を示している点にあり、これは初級ソフトウェアエンジニアにとっても、人工知能技術の発展可能性とその適用方法を理解する助けになる。

1件のコメント

 
GN⁺ 2023-12-08
Hacker Newsのコメント
  • LLMのファインチューニングでは、単純な概念でさえ実現が難しいことがありうる点が印象的だった。質の高い初期データセットとモデルがあっても、これは挑戦的な課題だった。
  • LLMは自然な正解がない問題に向いているように思える。完璧なカードを選ぶことは計算上不可能でも、良いカードを選ぶことは可能であり、LLMは人間レベルの性能に近づける可能性がある。
  • LLMをファインチューニングして解ける問題群は存在しそうだ。日常生活を革命的に変えるものではないが、Magic: the Gatheringのようなゲームで興味深いプレイスタイルを持つボットと対戦できることを期待している。
  • トッププレイヤーのドラフト選択を分析して「真のデータ」を抽出する方法に疑問がある。勝率で並べたデータは、最高のプレイヤーではなく最も運の良かったプレイヤーを反映しているかもしれない。
  • LLMはある程度ルール知識を持てるかもしれないが、主にカードのレアリティやコストなどを考慮している可能性が高い。ドラフトの「正確さ」には疑問がある。
  • LLMの損失を0にする代わりに、Axolotlを使って重み付き損失を使ってみるのが役立つかもしれない。ドメイン適応がファインチューニングに有効な可能性がある。
  • エージェントに与えられたプロンプトにはカード名しか含まれておらず、以前の選択との文脈が維持されていないように見える。これは、ボットが良いドラフトをしているのが純粋に偶然である可能性を示唆している。
  • Magic the Gathering: Arenaをハックして100%の勝率を達成した事例へのリンクが共有されていた。これは、MTGAのSparkyという仮想AIがそれほど複雑ではない可能性を示唆している。
  • Magic: The Gathering向けのLLMファインチューニングへの関心が示されていた。カード類似性ブラウザを構築中で、InstructorXLを使って複数のプロンプトを試したものの、まだ満足のいく結果は得られていない。この投稿が刺激になった。
  • 各カードをトークンとして扱い、ドラフト状態を入力として使用して、選択すべきカードを予測する小さなモデルを使えるのではないかという疑問。
  • 出発点としてMistralを使わず、ニューラルネットワークを訓練してドラフトを行わせる場合との比較は興味深いだろう。LLMの構成要素がなぜ重要なのかは明確ではない。
  • ドラフトをLLMで表現できるという点は非常に興味深い。最高のドラフトAIは、何らかの形で表現学習を活用している。