- AlibabaのQwen研究チームが、オープンソース(Apache 2.0ライセンス)のLLMシリーズ Qwen2.5-Coder を発表
- Qwen2.5-Coder-32B-Instructモデルは、GPT-4o級のコーディング能力を持つと主張
- 32Bモデルは、64GBのMacBook Pro M2でも動作可能なほど比較的小さなモデル
- ベンチマーク性能では、GPT-4o、Claude 3.5 Sonnet と同等か、それ以上のスコアを記録
ベンチマーク性能の比較
- Qwen2.5-Coder-32B-Instruct モデルは、以下のベンチマークで存在感を示した:
- LiveCodeBench、Spider、BIRD-SQL では、GPT-4oおよびClaude 3.5 Sonnetを上回る性能を記録
- MBPP、Aider、CodeArena では、性能がやや劣る
- HumanEval、McEval では、ほぼ同水準の性能を示す
Aiderベンチマークでの性能
- Paul Gauthierの Aiderベンチマーク でも良好な結果を示した
- "Whole edit" ベンチマークでは、Qwen2.5-Coder-32B-Instructは GPT-4oと3.5 Haikuの中間 の性能を記録
- スコア比較:
- 3.5 Sonnet: 84%
- 3.5 Haiku: 75%
- Qwen2.5-Coder 32B: 74%
- GPT-4o: 71%
- Qwen2.5-Coder 14B: 69%
- Qwen2.5-Coder 7B: 58%
- "Diff" ベンチマークでは、GPT-4oと同点で、Claude 3.5 Haikuにはわずかに及ばない
MacでのQwen2.5-Coder実行テスト
- ユーザーは Qwen2.5-Coder-32B-Instruct-GGUF Q8モデルを llm-gguf で実行しようとしたが、GPUを使わなかったため 速度は遅かった
- Ollama と MLX バージョンはMacBook上で問題なく動作
- Ollamaのインストール方法:
ollama pull qwen2.5-coder:32b コマンドで、20GBの量子化ファイルをダウンロード
- Python関数の生成リクエストに対して、sslの問題を除けば正常に動作
- MLXの使用:
- Apple Siliconの MLXフレームワーク により性能が向上
- Mandelbrotフラクタル生成コードをターミナルで実行し、ASCIIアートとして表示することに成功
- 性能指標:
- トークン生成速度: 10.016 tokens/sec
- メモリ使用量: 最大 32.685GB
追加テスト: Pelican on a bicycle ベンチマーク
llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle' リクエストを実行
- 結果は 形がはっきりしないペリカンと自転車のSVG画像 だったが、ユーザー体験の面では興味深いものだった
結論とユーザー体験
- 32GB のメモリ使用量はMacで実行可能な範囲で、他のアプリケーションを終了せずに利用できる
- 速度と結果の品質 の面で、現在のホスティング型モデルと競争できるレベル
- ユーザーのLLM利用の 80%がコード作成 に関連しているため、Qwen2.5-Coderは有意義な改善になりそうだ
1件のコメント
コーディングのユーザーシナリオとは少し異なりますが、ClaudeのJSONモードをどう実装しているのか不思議です。いくつかのホスティングモデルは、JSON出力を生成するよう促しても、コメント付きのJavaScriptやMarkdownテキストを作ってしまうんですよね。ホスティングモデルを何度か使ってみた経験では、マネージドサービスを利用するほうが成果物の満足度が高かったです。ホスティングモデルでは実現できない何かがまだある気がします。