7 ポイント 投稿者 GN⁺ 2024-11-15 | 1件のコメント | WhatsAppで共有
  • AlibabaのQwen研究チームが、オープンソース(Apache 2.0ライセンス)のLLMシリーズ Qwen2.5-Coder を発表
  • Qwen2.5-Coder-32B-Instructモデルは、GPT-4o級のコーディング能力を持つと主張
  • 32Bモデルは、64GBのMacBook Pro M2でも動作可能なほど比較的小さなモデル
  • ベンチマーク性能では、GPT-4oClaude 3.5 Sonnet と同等か、それ以上のスコアを記録

ベンチマーク性能の比較

  • Qwen2.5-Coder-32B-Instruct モデルは、以下のベンチマークで存在感を示した:
    • LiveCodeBenchSpiderBIRD-SQL では、GPT-4oおよびClaude 3.5 Sonnetを上回る性能を記録
    • MBPPAiderCodeArena では、性能がやや劣る
    • HumanEvalMcEval では、ほぼ同水準の性能を示す

Aiderベンチマークでの性能

  • Paul Gauthierの Aiderベンチマーク でも良好な結果を示した
    • "Whole edit" ベンチマークでは、Qwen2.5-Coder-32B-Instructは GPT-4oと3.5 Haikuの中間 の性能を記録
    • スコア比較:
      • 3.5 Sonnet: 84%
      • 3.5 Haiku: 75%
      • Qwen2.5-Coder 32B: 74%
      • GPT-4o: 71%
      • Qwen2.5-Coder 14B: 69%
      • Qwen2.5-Coder 7B: 58%
    • "Diff" ベンチマークでは、GPT-4oと同点で、Claude 3.5 Haikuにはわずかに及ばない

MacでのQwen2.5-Coder実行テスト

  • ユーザーは Qwen2.5-Coder-32B-Instruct-GGUF Q8モデルを llm-gguf で実行しようとしたが、GPUを使わなかったため 速度は遅かった
  • OllamaMLX バージョンはMacBook上で問題なく動作
  • Ollamaのインストール方法:
    • ollama pull qwen2.5-coder:32b コマンドで、20GBの量子化ファイルをダウンロード
    • Python関数の生成リクエストに対して、sslの問題を除けば正常に動作
  • MLXの使用:
    • Apple Siliconの MLXフレームワーク により性能が向上
    • Mandelbrotフラクタル生成コードをターミナルで実行し、ASCIIアートとして表示することに成功
    • 性能指標:
      • トークン生成速度: 10.016 tokens/sec
      • メモリ使用量: 最大 32.685GB

追加テスト: Pelican on a bicycle ベンチマーク

  • llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle' リクエストを実行
  • 結果は 形がはっきりしないペリカンと自転車のSVG画像 だったが、ユーザー体験の面では興味深いものだった

結論とユーザー体験

  • 32GB のメモリ使用量はMacで実行可能な範囲で、他のアプリケーションを終了せずに利用できる
  • 速度と結果の品質 の面で、現在のホスティング型モデルと競争できるレベル
  • ユーザーのLLM利用の 80%がコード作成 に関連しているため、Qwen2.5-Coderは有意義な改善になりそうだ

1件のコメント

 
savvykang 2024-11-15

コーディングのユーザーシナリオとは少し異なりますが、ClaudeのJSONモードをどう実装しているのか不思議です。いくつかのホスティングモデルは、JSON出力を生成するよう促しても、コメント付きのJavaScriptやMarkdownテキストを作ってしまうんですよね。ホスティングモデルを何度か使ってみた経験では、マネージドサービスを利用するほうが成果物の満足度が高かったです。ホスティングモデルでは実現できない何かがまだある気がします。