Ask HN: 2023年12月時点で、自分の文書を使ってカスタムLLM/ChatGPTを学習させるにはどうすればよいですか？

(news.ycombinator.com)

4 ポイント投稿者 GN⁺ 2023-12-26 | 1件のコメント | WhatsAppで共有

5か月前に関連スレッドがあるものの、すでに古い情報かもしれないため、2023年12月時点でのアプローチを改めて探している
カスタム文書セットをLLMに与えて、ハルシネーションが少なく品質の良い回答を得る最善の方法が質問の核心
独自モデルの学習だけに限定せず、文書に基づいて質問に答えさせる方法全般を扱い、RAGのようなアプローチも含む

1件のコメント

GN⁺ 2023-12-26

Hacker Newsの意見

文書に対するトレーニングは実際には行われておらず、多くのスタートアップがこの用語を使っているが、実際にはRAG（Retrieval-Augmented Generation）を使っている。
- LlamaIndexが最良の選択肢と見なされている。
- 文書に対するトレーニングを主張するスタートアップの大半は、実際にはRAGを使っている。
- qLoRAを使って質問と回答のペアを自動生成するスクリプトを探してみることが勧められている。
- 個人文書のナレッジベースで成功裏に使われた事例はまれで、主に数学、推論、Pythonなどの技術に使われている。
- 文書セットを単純にファインチューニングに投入しても効果がないことが経験的に示されている。
文書量に応じて異なるアプローチを検討する必要がある。
- RAGは小規模なデータセットでうまく機能し、この分野ではLlamaIndexが多くのエンジニアリングを担っている。
- ファインチューニングとRAGの組み合わせは、インターネットで容易に見つかる知識を含む大規模データセットに有効である。
- 継続事前学習は、非常に大規模なデータセットと独自知識を持つ場合に必要となる。
AWS Bedrockは使いやすく、文書をS3にアップロードしてベクターデータベースに同期し、API経由で利用できる。
- Bedrockは多様なモデルと共通APIを提供する製品である。
h2oGPTは、多様な形式の文書を処理し、さまざまなモデルホスティング実装をサポートする、機能の充実したRAG実装である。
ChatGPTアカウントを購入して自分の文書をアップロードでき、それによってカスタムの対話型AIを作成できる。
GPT-4 Assistantsは現在、標準でRAGを扱うことができ、PrivateGPTはそのためのよく知られた選択肢の1つである。
Microsoft OfficeのCopilot Builderは、ユーザーがベースURLやアップロード済みファイルなどを指定することで、数秒でAI Copilotを作成できるようにしている。
Cheshire Catは、文書を「記憶」として保存し、後で検索できるAIアシスタントフレームワークである。
Mistral 7BをQLoRAでファインチューニングする方法についての動画ガイドがあり、RAGの技術のほうが望ましい可能性があることにも触れている。

Ask HN: 2023年12月時点で、自分の文書を使ってカスタムLLM/ChatGPTを学習させるにはどうすればよいですか？

関連記事

1件のコメント

Hacker Newsの意見