- CodeLlama-34B と CodeLlama-34B-Python を Phind の内部データセットでファインチューニングし、HumanEval でそれぞれ 67.6% と 69.5% の pass@1 を達成して、GPT-4 の 67% を上回った
- 最近公開された CodeLlama モデルは HumanEval で印象的な性能を示しており、CodeLlama-34B は 48.8% の pass@1、CodeLlama-34B-Python は 53.7% の pass@1 を達成した
- 両モデルは約 80k の高品質なプログラミング問題と解答を含む独自データセットで微調整されており、このデータセットはコード補完の例ではなく、指示-応答ペアを特徴とする HumanEval とは構造的に異なる
- モデルは DeepSpeed ZeRO 3 と Flash Attention 2 を使用し、2 エポックにわたって合計 160k の例を学習した。これは 32 基の A100-80GB GPU、シーケンス長 4096 トークンで 3 時間かけて行われた
- OpenAI の汚染除去手法がデータセットに適用され、有効な結果が保証され、汚染された例は発見されなかった。この手法では、各評価例から 50 文字で構成される 3 つの部分文字列をランダムにサンプリングするか、例全体が 50 文字未満の場合は例全体を使用し、サンプリングされた部分文字列の 1 つが処理済み学習例の部分文字列である場合、一致として識別する
- 微調整されたモデルは HumanEval で、Phind-CodeLlama-34B-v1 が 67.6%、Phind-CodeLlama-34B-Python-v1 が 69.5% の pass@1 スコアを達成した
- 両モデルは Huggingface で公開されており、検証可能性を確保し、オープンソースコミュニティを支援するため、結果の独立した検証が推奨される
1件のコメント
HNの投稿です。
https://news.ycombinator.com/item?id=37267597