12 ポイント 投稿者 GN⁺ 2024-11-10 | 1件のコメント | WhatsAppで共有
  • OpenCoderはオープンソースのコード大規模言語モデル(LLM)で、1.5Bおよび8Bのベースモデルとチャットモデルを含み、英語と中国語をサポート
    • 2.5兆トークンで構成されたデータで学習されており、そのうち90%は生のコード、10%はコード関連のWebデータで構成
    • 最先端のコードLLMの性能に到達しており、モデル重み、推論コード、再現可能な学習データ、データ処理パイプライン、実験的なアブレーション結果、詳細な学習プロトコルを提供
    • 研究者がコードAIを発展させ、革新できるよう支援するオープンプラットフォーム
  • OpenCoderの特徴
    • 完全なオープンソースのコードLLMであり、透明なデータ処理パイプラインと再現可能なデータセットに基づいて構築され、複数のコードLLM評価ベンチマークで最先端の性能を達成
    • RefineCode: 607のプログラミング言語にまたがる9600億トークンで構成された、高品質で再現可能なコード事前学習コーパス
    • 意義あるアブレーション研究: さまざまな設計選択とコードLLMの学習戦略に関する有意義な洞察を提供するため、複数のアブレーション実験を含む
    • 公開リソース: 最終モデル重み、完全なデータ処理パイプライン、効率的な評価パイプライン、再現可能な事前学習データセット、大規模SFTデータセット、および中間チェックポイント

1件のコメント

 
GN⁺ 2024-11-10
Hacker Newsの意見
  • モデルの重みと推論コードだけでなく、再現可能な学習データ、データ処理パイプライン、実験結果、学習プロトコルを公開し、科学研究に貢献している。

    • このような取り組みは、モデルの性能に関係なく、誰にとっても利益になることが強調されている。
  • テスト結果では、ハルシネーションが多く、Qwen 2.5やMistral-Nemoのような汎用モデルと比べて性能が劣る。

  • arXiv論文のホームページへのリンク: https://opencoder-llm.github.io/

  • Qwen2.5-Coder-7BのHumanEvalスコアは61.6なのに、Table 1では88.4となっており混乱した。

    • これは2つのモデルが異なるためである(Qwen2.5-Coder-7B-Baseは61.6、Qwen2.5-Coder-7B-Instructは88.4)。
  • コードベース内のフォークとコピー&ペーストのため、ファイルの75%が完全に重複している。

    • ファイルレベルでハッシュ化しているため、ファイル全体を変更なしでコピーしたものかどうかは確信できない。
  • コンパイルや実行のメタデータ(プロファイリングデータなど)を含めて学習している人はいるのだろうか?

    • こうした情報を含めることで、モデルをより効率的なコードの方向へ導けるのか気になる。
  • 興味深い論文だが、このモデルはRubyを含むいくつかの言語でQwen2.5-Coderより優れているようには見えない。

  • このモデルを動かすにはどのようなハードウェアが必要なのか気になる。

  • パイプラインが重要だ。

  • 良い。