1 ポイント 投稿者 GN⁺ 2024-07-02 | 1件のコメント | WhatsAppで共有

TL;DR

  • 要点: ファインチューニングしたモデルはOpenAIのモデルより高精度だったが、評価の実装は難しかった。
  • 主な内容: ファインチューニングの過程では多くのコードが隠されており、実行速度も遅かった。システムがなければ保守の複雑さは増すだろう。

データセットの読み込み

  • データセット: Hugging Face Hub の公開リポジトリにあるテストデータセットを使用。
  • データセット構造: 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' など。

予測の追加

  • 予測の追加: 各データセット行に予測結果を追加し、これを繰り返し行うことで計算負荷の高いステップを回避。
  • Pydanticオブジェクトの使用: データ検証と品質管理機能を扱うため、Pydanticオブジェクトとしてデータを構成。

JSON妥当性テスト

  • 予測結果: モデルがJSON文字列を出力するよう設定。
  • GPTモデルの使用: GPT-4o と GPT-4 Turbo モデルを使って予測を実行。
  • 問題点: GPTモデルは同一のプロンプトで訓練されていないため、正確な比較が難しい。

非同期予測

  • 非同期処理: 多数のイベントを処理するため、非同期方式で予測を実行。
  • リトライロジック: GPT-3.5-turbo モデルのレート制限を考慮してリトライロジックを追加。

データセットの変換とプッシュ

  • データセット変換: 予測結果をデータセットに追加して Hugging Face Hub にプッシュ。
  • 関数の使用: 変換とプッシュの過程を繰り返し実行するために関数を使用。

ファインチューニング済みモデルの予測追加

  • ローカルモデル: ローカルで訓練したモデルの予測結果をデータセットに追加。
  • OpenAIモデル: OpenAI のワンクリック・ファインチューニングサービスで訓練したモデルの予測結果を追加。
  • さまざまなモデル: Mistral、Llama3、Solar LLM など、さまざまなモデルの予測結果を追加。

最終評価

  • 評価指標: JSON妥当性テスト、開始日精度、週単位の精度、ターゲットグループ精度、イベントタイプ精度など、さまざまな評価指標を使用。
  • 最終結果: ファインチューニングしたモデルがOpenAIモデルより高い精度を示した。

GN⁺の見解

  1. ファインチューニングの重要性: ファインチューニングしたモデルがOpenAIのベースモデルより高い精度を示したことから、特定タスク向けモデルの重要性が強調される。
  2. 評価の複雑さ: 評価実装が難しかった点から、システム的なアプローチの必要性を感じさせる。
  3. 多様なモデルの利用: さまざまなモデルを使って比較評価を行っている点が興味深い。これにより各モデルの長所と短所をより明確に把握できる。
  4. オープンソース活用: Hugging Face Hub のようなオープンソースプラットフォームを活用してデータセットを管理・共有した点は有用。
  5. 非同期処理の必要性: 大量データを処理する際に非同期方式が効率的であることを示している。

1件のコメント

 
GN⁺ 2024-07-02
Hacker Newsの意見
  • OpenPipeの創業者: データ抽出はファインチューニングされたモデルが優れている分野。OpenPipeの研究によれば、Llama 3 8Bモデルは複数のタスクでGPT-4を上回った。重要なのは高品質な訓練データを生成する方法
  • 小規模な特化モデルは、情報抽出とテキスト分類でより優れた性能を示す。小規模モデルの性能を含めた研究を見てみたい
  • 不定系の方程式は無限の解を持つ。オープンソースAIモデルを使ってSOTAベンチマークを上回ることができる。現在の技術では知能システムは作れず、新たなブレークスルーが必要
  • データ抽出と構造化は、実務で有用なLLMの唯一の本格的な応用。小規模モデルはより高速で安価であり、オフライン作業に適している。より多くの実験と特定用途向けのファインチューニングが可能
  • ファインチューニングモデルの目的はまさにこれ。ホスティングとローカルの選択肢を組み合わせたファインチューニングのプロセスを見るのはよいこと
  • GPT-4が不正確だった例と、最良のモデルが正確だった例を見てみたい。温度0で再試行するのもよい。温度0は構造化データ抽出で大きな違いを生むことがある
  • 類似のテーマについて論文を書いた: 論文リンク
  • Predibaseで700件以上のファインチューニング実験を実施し、GPT-4と比較した。85%のケースでGPT-4を上回った。結果はこちらで確認できる
  • すべてのモデルを可能な限りオープンソースにすべき。自由と品質のために、オープンソースは一般的により優れている
  • 対象ニュース記事の論争になり得る内容が、ChatGPTの要約能力に影響を与える可能性がある