2 ポイント 投稿者 GN⁺ 2023-08-26 | 1件のコメント | WhatsAppで共有
  • CodeLlama-34B と CodeLlama-34B-Python を Phind の内部データセットでファインチューニングし、HumanEval でそれぞれ 67.6% と 69.5% の pass@1 を達成して、GPT-4 の 67% を上回った
  • 最近公開された CodeLlama モデルは HumanEval で印象的な性能を示しており、CodeLlama-34B は 48.8% の pass@1、CodeLlama-34B-Python は 53.7% の pass@1 を達成した
  • 両モデルは約 80k の高品質なプログラミング問題と解答を含む独自データセットで微調整されており、このデータセットはコード補完の例ではなく、指示-応答ペアを特徴とする HumanEval とは構造的に異なる
  • モデルは DeepSpeed ZeRO 3 と Flash Attention 2 を使用し、2 エポックにわたって合計 160k の例を学習した。これは 32 基の A100-80GB GPU、シーケンス長 4096 トークンで 3 時間かけて行われた
  • OpenAI の汚染除去手法がデータセットに適用され、有効な結果が保証され、汚染された例は発見されなかった。この手法では、各評価例から 50 文字で構成される 3 つの部分文字列をランダムにサンプリングするか、例全体が 50 文字未満の場合は例全体を使用し、サンプリングされた部分文字列の 1 つが処理済み学習例の部分文字列である場合、一致として識別する
  • 微調整されたモデルは HumanEval で、Phind-CodeLlama-34B-v1 が 67.6%、Phind-CodeLlama-34B-Python-v1 が 69.5% の pass@1 スコアを達成した
  • 両モデルは Huggingface で公開されており、検証可能性を確保し、オープンソースコミュニティを支援するため、結果の独立した検証が推奨される

1件のコメント

 
alstjr7375 2023-08-27