- MetaがLlama 2をベースに構築した、コーディング専用モデルのCode Llamaを公開。
- コードおよび自然言語プロンプトからコード生成が可能で、独自ベンチマークではChatGPTより高い性能を示した。
- 5,000億のコードトークンと関連データで学習した7B、13B、34Bモデルをそれぞれ公開。
- 最大10万コンテキストトークンをサポートし、より長いプログラムを書いたり、詳細な条件や実際のコードをプロンプトとして入力しやすい。
- Code Llamaはベースモデルに加えて、2つの追加バリアントも公開。
- Code Llama - Python: 1,000億のPythonコードトークンを追加してファインチューニングしたモデル。
- Code Llama - Instruct: 50億の命令トークンでファインチューニングした、自然言語入力とコード出力に最適化されたモデル。
- 他のモデルは自然言語に最適化されていないため、自然言語からコードを生成する際はこのモデルを使う必要がある。
- HumanEval、MBPPでモデル性能を測定した結果、ChatGPT(GPT 3.5)と同等またはそれ以上の性能を示した。
- GPT 3.5がHumanEvalで48.1%を記録したのに対し、Code Llama - Pythonは53.7%を記録。
- GPT 4は67%で、まだ差がある。
- Code Llamaが悪意あるコードを生成するリスクを最小化するため、さまざまな安全対策を追加。
- 実際のテストでは、ChatGPTと比べて生成される悪意あるコードが少ないことが確認された。
2件のコメント
ライセンスはLlamaと同じですね。MAUが7億人を超えると、ライセンスの申請が必要です。 まあ韓国企業には大きな問題はなさそうですね(笑)
Llama 2と同じライセンスで公開されました。
StarCoderも少し物足りないと聞いていましたが、ついに本当のCopilotの代替が現れたのでしょうか?
いずれにせよ、こういうことを考えるとGPT 4の性能は本当にすごいのだと思います。
日本語も得意で、ベンチマークでもGPT 4の性能がはるかに高いと出ていますし…。
GPT 3.5も日本語は他のオープンモデルに比べて圧倒的です。
日本語でも動作するオープンソースのコード生成モデルが登場することを願います。