Ask HN: GPTから独自モデルへ移行した人たち、体験はどうでしたか？

xguru · 2024-02-29T10:29:01+09:00

HNに投稿された質問への回答を整理数十社の顧客に対して、OpenPipe上のGPT-4/GPT-3.5から独自にファインチューニングしたモデルへの移行を支援した最も一般的な反応は「こんなに少ない労力でここまでうまく動くとは思わなかった」というものほとんどの作業で、ファインチューニング済みのMistral 7BはGPT-3.5をはるかに低コストで上回る一部のユースケースではGPT-4と同等、またはそれ以上の性能を発揮した（特に分類、情報抽出、要約のような作業） Mistral-Instruct-0.1を電話/メール要約に、Mixtralを契約マイニングに、OpenChatをRAGツールを備えたエージェントチャットボットの強化に使用した体験は素晴らしく、INT8のトレードオフは、ハードウェアFP8（FP4）がより広く普及して安価になるまでは受け入れ可能オンプレミスのコストは、既存のA100およびV100機材を使って数百万件のインタラクションを実行する中ですでに吸収されていた ContinueとOllamaを併用しており、主に使っているLLMはdeepseek-coder 7b。この構成はChatGPT 4と同じくらい良く、ローカル優先で、全体として満足している技術的な作業を行うためにLLMをチューニングしたところ、非常によく機能した。ただし、LLMの評価は意外に難しく、GPT-4が一般に言われるほど優秀ではないことも分かった 10,000件を超えるレコードのデータ抽出や処理ではローカルモデルを使うほうが好み。ホスティングサービスはこの規模では遅く脆弱になりがち。ファインチューニング済みのMistral 7B（OpenChatが最良）がデータを高速に処理する。複雑なプロンプトの情報を要約するためにChatGPT-4を使い、その結果をローカルモデルで実行している。今後さらに状況は良くなると思うアプリとエンタープライズ製品で、OpenAIのAPIとオンデバイスライブラリ（例: llama.cpp）の両方をサポートしている。APIとライブラリが非常によく似ているため、利用者にとって移行プロセスはほぼ透過的。他プラットフォームのAPIもまもなくサポート予定で、OpenAIと同じくらい簡単に統合できる Wi-Fiのないフライト中にMistral 7Bを使ったが、必要な情報を見つけるにはかなり良かった一方で、ステップごとの指示を出す場面では成功したりしなかったりした Double.botを構築する過程で複数のモデルを試したが、結局gpt4に戻った。他のモデルも面白いが、gpt4が解ける100問のうち1問でも落とすとがっかりする。現時点では、モデル自体よりもその周辺機能の実装から得られる価値のほうが大きく、これはGitHub copilotの問題を解決するものでもある（括弧を正しく閉じるオートコンプリート、提案受け入れ時の自動import、コメント作成時には提案を無効化して邪魔しないようにすること、行の途中での補完など）。6か月以内にオープンソースモデルがgpt4に追いつくことを望んでいる一般的にLlama 2は、特に英語以外の言語ではかなり出来が悪いと思う。チャット用途ではMixtralで非常に良い結果が得られた。もちろん実際のChatGPTと比べると、どれもフランケンシュタインのように感じる。似たように見えてよく動いていても、ときどき完全にひどいゴミやアーティファクトを出してきて、ファインチューニングをおろそかにしたのではないかと疑いたくなるまず独自モデルで第一段階を処理し、その結果に確信が持てない場合はgptへエスカレーションしている 2024年には、コストやレイテンシを経験したさらに多くの人がOpenAIを離れ、（あまり検証・スケールされていない）競合へ移ると予想している。速度と品質はしばしばトレードオフの関係にあるが、OpenAIより3倍以上速く、品質が3分の1以上の複数ベンダーを見てきたスクリプティング、アイデア探索、そして常にファクトチェックが必要な定義のようなユースケースにMixtral 8x7b (q5)を使っている。現在は96GB RAM搭載のM2でlmstudioを使用中。ただし、Ollamaまたは他のOSSソリューションへの移行を検討している

(news.ycombinator.com)

26 ポイント投稿者 xguru 2024-02-29 | 1件のコメント | WhatsAppで共有

HNに投稿された質問への回答を整理

数十社の顧客に対して、OpenPipe上のGPT-4/GPT-3.5から独自にファインチューニングしたモデルへの移行を支援した
- 最も一般的な反応は「こんなに少ない労力でここまでうまく動くとは思わなかった」というもの
- ほとんどの作業で、ファインチューニング済みのMistral 7BはGPT-3.5をはるかに低コストで上回る
- 一部のユースケースではGPT-4と同等、またはそれ以上の性能を発揮した（特に分類、情報抽出、要約のような作業）
Mistral-Instruct-0.1を電話/メール要約に、Mixtralを契約マイニングに、OpenChatをRAGツールを備えたエージェントチャットボットの強化に使用した
- 体験は素晴らしく、INT8のトレードオフは、ハードウェアFP8（FP4）がより広く普及して安価になるまでは受け入れ可能
- オンプレミスのコストは、既存のA100およびV100機材を使って数百万件のインタラクションを実行する中ですでに吸収されていた
ContinueとOllamaを併用しており、主に使っているLLMはdeepseek-coder 7b。この構成はChatGPT 4と同じくらい良く、ローカル優先で、全体として満足している
技術的な作業を行うためにLLMをチューニングしたところ、非常によく機能した。ただし、LLMの評価は意外に難しく、GPT-4が一般に言われるほど優秀ではないことも分かった
10,000件を超えるレコードのデータ抽出や処理ではローカルモデルを使うほうが好み。ホスティングサービスはこの規模では遅く脆弱になりがち。ファインチューニング済みのMistral 7B（OpenChatが最良）がデータを高速に処理する。複雑なプロンプトの情報を要約するためにChatGPT-4を使い、その結果をローカルモデルで実行している。今後さらに状況は良くなると思う
アプリとエンタープライズ製品で、OpenAIのAPIとオンデバイスライブラリ（例: llama.cpp）の両方をサポートしている。APIとライブラリが非常によく似ているため、利用者にとって移行プロセスはほぼ透過的。他プラットフォームのAPIもまもなくサポート予定で、OpenAIと同じくらい簡単に統合できる
Wi-Fiのないフライト中にMistral 7Bを使ったが、必要な情報を見つけるにはかなり良かった一方で、ステップごとの指示を出す場面では成功したりしなかったりした
Double.botを構築する過程で複数のモデルを試したが、結局gpt4に戻った。他のモデルも面白いが、gpt4が解ける100問のうち1問でも落とすとがっかりする。現時点では、モデル自体よりもその周辺機能の実装から得られる価値のほうが大きく、これはGitHub copilotの問題を解決するものでもある（括弧を正しく閉じるオートコンプリート、提案受け入れ時の自動import、コメント作成時には提案を無効化して邪魔しないようにすること、行の途中での補完など）。6か月以内にオープンソースモデルがgpt4に追いつくことを望んでいる
一般的にLlama 2は、特に英語以外の言語ではかなり出来が悪いと思う。チャット用途ではMixtralで非常に良い結果が得られた。もちろん実際のChatGPTと比べると、どれもフランケンシュタインのように感じる。似たように見えてよく動いていても、ときどき完全にひどいゴミやアーティファクトを出してきて、ファインチューニングをおろそかにしたのではないかと疑いたくなる
まず独自モデルで第一段階を処理し、その結果に確信が持てない場合はgptへエスカレーションしている
2024年には、コストやレイテンシを経験したさらに多くの人がOpenAIを離れ、（あまり検証・スケールされていない）競合へ移ると予想している。速度と品質はしばしばトレードオフの関係にあるが、OpenAIより3倍以上速く、品質が3分の1以上の複数ベンダーを見てきた
スクリプティング、アイデア探索、そして常にファクトチェックが必要な定義のようなユースケースにMixtral 8x7b (q5)を使っている。現在は96GB RAM搭載のM2でlmstudioを使用中。ただし、Ollamaまたは他のOSSソリューションへの移行を検討している

1件のコメント

nullptr 2024-02-29

HNなので、英語が前提である点を念頭に置く必要があると思います。

Ask HN: GPTから独自モデルへ移行した人たち、体験はどうでしたか？

関連記事

1件のコメント