- OpenCoderはオープンソースのコード大規模言語モデル(LLM)で、1.5Bおよび8Bのベースモデルとチャットモデルを含み、英語と中国語をサポート
- 2.5兆トークンで構成されたデータで学習されており、そのうち90%は生のコード、10%はコード関連のWebデータで構成
- 最先端のコードLLMの性能に到達しており、モデル重み、推論コード、再現可能な学習データ、データ処理パイプライン、実験的なアブレーション結果、詳細な学習プロトコルを提供
- 研究者がコードAIを発展させ、革新できるよう支援するオープンプラットフォーム
- OpenCoderの特徴
- 完全なオープンソースのコードLLMであり、透明なデータ処理パイプラインと再現可能なデータセットに基づいて構築され、複数のコードLLM評価ベンチマークで最先端の性能を達成
- RefineCode: 607のプログラミング言語にまたがる9600億トークンで構成された、高品質で再現可能なコード事前学習コーパス
- 意義あるアブレーション研究: さまざまな設計選択とコードLLMの学習戦略に関する有意義な洞察を提供するため、複数のアブレーション実験を含む
- 公開リソース: 最終モデル重み、完全なデータ処理パイプライン、効率的な評価パイプライン、再現可能な事前学習データセット、大規模SFTデータセット、および中間チェックポイント
1件のコメント
Hacker Newsの意見
モデルの重みと推論コードだけでなく、再現可能な学習データ、データ処理パイプライン、実験結果、学習プロトコルを公開し、科学研究に貢献している。
テスト結果では、ハルシネーションが多く、Qwen 2.5やMistral-Nemoのような汎用モデルと比べて性能が劣る。
arXiv論文のホームページへのリンク: https://opencoder-llm.github.io/
Qwen2.5-Coder-7BのHumanEvalスコアは61.6なのに、Table 1では88.4となっており混乱した。
コードベース内のフォークとコピー&ペーストのため、ファイルの75%が完全に重複している。
コンパイルや実行のメタデータ(プロファイリングデータなど)を含めて学習している人はいるのだろうか?
興味深い論文だが、このモデルはRubyを含むいくつかの言語でQwen2.5-Coderより優れているようには見えない。
このモデルを動かすにはどのようなハードウェアが必要なのか気になる。
パイプラインが重要だ。
良い。