OpenCoder: 最先端のコードLLMのためのオープン・クックブック

(opencoder-llm.github.io)

12 ポイント投稿者 GN⁺ 2024-11-10 | 1件のコメント | WhatsAppで共有

OpenCoderはオープンソースのコード大規模言語モデル（LLM）で、1.5Bおよび8Bのベースモデルとチャットモデルを含み、英語と中国語をサポート
- 2.5兆トークンで構成されたデータで学習されており、そのうち90%は生のコード、10%はコード関連のWebデータで構成
- 最先端のコードLLMの性能に到達しており、モデル重み、推論コード、再現可能な学習データ、データ処理パイプライン、実験的なアブレーション結果、詳細な学習プロトコルを提供
- 研究者がコードAIを発展させ、革新できるよう支援するオープンプラットフォーム
OpenCoderの特徴
- 完全なオープンソースのコードLLMであり、透明なデータ処理パイプラインと再現可能なデータセットに基づいて構築され、複数のコードLLM評価ベンチマークで最先端の性能を達成
- RefineCode: 607のプログラミング言語にまたがる9600億トークンで構成された、高品質で再現可能なコード事前学習コーパス
- 意義あるアブレーション研究: さまざまな設計選択とコードLLMの学習戦略に関する有意義な洞察を提供するため、複数のアブレーション実験を含む
- 公開リソース: 最終モデル重み、完全なデータ処理パイプライン、効率的な評価パイプライン、再現可能な事前学習データセット、大規模SFTデータセット、および中間チェックポイント

1件のコメント

GN⁺ 2024-11-10

Hacker Newsの意見

モデルの重みと推論コードだけでなく、再現可能な学習データ、データ処理パイプライン、実験結果、学習プロトコルを公開し、科学研究に貢献している。
- このような取り組みは、モデルの性能に関係なく、誰にとっても利益になることが強調されている。
テスト結果では、ハルシネーションが多く、Qwen 2.5やMistral-Nemoのような汎用モデルと比べて性能が劣る。
arXiv論文のホームページへのリンク: https://opencoder-llm.github.io/
Qwen2.5-Coder-7BのHumanEvalスコアは61.6なのに、Table 1では88.4となっており混乱した。
- これは2つのモデルが異なるためである（Qwen2.5-Coder-7B-Baseは61.6、Qwen2.5-Coder-7B-Instructは88.4）。
コードベース内のフォークとコピー&ペーストのため、ファイルの75%が完全に重複している。
- ファイルレベルでハッシュ化しているため、ファイル全体を変更なしでコピーしたものかどうかは確信できない。
コンパイルや実行のメタデータ（プロファイリングデータなど）を含めて学習している人はいるのだろうか？
- こうした情報を含めることで、モデルをより効率的なコードの方向へ導けるのか気になる。
興味深い論文だが、このモデルはRubyを含むいくつかの言語でQwen2.5-Coderより優れているようには見えない。
このモデルを動かすにはどのようなハードウェアが必要なのか気になる。
パイプラインが重要だ。
良い。

OpenCoder: 最先端のコードLLMのためのオープン・クックブック

関連記事

1件のコメント

Hacker Newsの意見