本番レベルのLLMアプリケーションのための開発者ガイド(翻訳記事)
(discuss.pytorch.kr)-
ZapierのAI製品開発者 Tal Peretz が執筆した記事を、許可を得て翻訳しました。
-
原文はこちらで確認でき、主な内容は以下のとおりです。
-
プロンプトエンジニアリング - スタート段階
-
評価の役割: (航海の指針)北極星
- AI評価に体系的に取り組む / Systematic Approach to AI Evaluations
- データセットを活用して深いテストを行う / Dataset Utilization for In-depth Testing
- AIによる評価で評価を改善する / Refining Evaluations with AI Assessments
- 評価のための指標 / Metrics to evaluate
- 人による評価をゴールドスタンダードとする / Human Evaluation as the Gold Standard
-
RAG: 必要なときに状況に合った深い情報を得る
- 試してみるべき手法 / Techniques to Experiment With
-
ファインチューニング: 専門化の技術
- 学習データの不足: 量と質のバランス問題 / Insufficient Training Data: The Quantity-Quality Equilibrium
- 不均衡な学習データ: バイアスのジレンマ / Unbalanced Training Sets: The Bias Dilemma
- 公開データの再利用: 新しいシグナルが不可欠 / Reusing Public Data: The New Signal Imperative
- 不十分なプロンプトエンジニアリング: 明確な指示 / Poor Prompt Engineering: The Clarity Commandment
- 段階的に評価しないこと: 継続的な見落とし / Not Evaluating Incrementally: The Continuous Oversight
-
すべてが必要なとき
-
まとめ
3件のコメント
共有ありがとうございます。
OpenAIが発表した「A Survey of Techniques for Maximizing LLM Performance」とほぼ同じ内容のようですね?
OpenAI DevDay の動画を見逃していたのですが、お話しされていたセッションがあることを今知りました。 :)
教えてくださってありがとうございます!
(+ ほかの方のために、私が見つけた YouTube リンクを共有します!)
https://www.youtube.com/watch?v=ahnGLM-RC1Y