Macで快適に動作する、優れたコーディング能力を持つLLM Qwen2.5-Coder-32B

(simonwillison.net)

7 ポイント投稿者 GN⁺ 2024-11-15 | 1件のコメント | WhatsAppで共有

AlibabaのQwen研究チームが、オープンソース（Apache 2.0ライセンス）のLLMシリーズ Qwen2.5-Coder を発表
Qwen2.5-Coder-32B-Instructモデルは、GPT-4o級のコーディング能力を持つと主張
32Bモデルは、64GBのMacBook Pro M2でも動作可能なほど比較的小さなモデル
ベンチマーク性能では、GPT-4o、Claude 3.5 Sonnet と同等か、それ以上のスコアを記録

ベンチマーク性能の比較

Qwen2.5-Coder-32B-Instruct モデルは、以下のベンチマークで存在感を示した:
- LiveCodeBench、Spider、BIRD-SQL では、GPT-4oおよびClaude 3.5 Sonnetを上回る性能を記録
- MBPP、Aider、CodeArena では、性能がやや劣る
- HumanEval、McEval では、ほぼ同水準の性能を示す

Aiderベンチマークでの性能

Paul Gauthierの Aiderベンチマーク でも良好な結果を示した
- "Whole edit" ベンチマークでは、Qwen2.5-Coder-32B-Instructは GPT-4oと3.5 Haikuの中間 の性能を記録
- スコア比較:
  - 3.5 Sonnet: 84%
  - 3.5 Haiku: 75%
  - Qwen2.5-Coder 32B: 74%
  - GPT-4o: 71%
  - Qwen2.5-Coder 14B: 69%
  - Qwen2.5-Coder 7B: 58%
- "Diff" ベンチマークでは、GPT-4oと同点で、Claude 3.5 Haikuにはわずかに及ばない

MacでのQwen2.5-Coder実行テスト

ユーザーは Qwen2.5-Coder-32B-Instruct-GGUF Q8モデルを llm-gguf で実行しようとしたが、GPUを使わなかったため 速度は遅かった
Ollama と MLX バージョンはMacBook上で問題なく動作
Ollamaのインストール方法:
- ollama pull qwen2.5-coder:32b コマンドで、20GBの量子化ファイルをダウンロード
- Python関数の生成リクエストに対して、sslの問題を除けば正常に動作
MLXの使用:
- Apple Siliconの MLXフレームワーク により性能が向上
- Mandelbrotフラクタル生成コードをターミナルで実行し、ASCIIアートとして表示することに成功
- 性能指標:
  - トークン生成速度: 10.016 tokens/sec
  - メモリ使用量: 最大 32.685GB

追加テスト: Pelican on a bicycle ベンチマーク

llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle' リクエストを実行
結果は 形がはっきりしないペリカンと自転車のSVG画像 だったが、ユーザー体験の面では興味深いものだった

結論とユーザー体験

32GB のメモリ使用量はMacで実行可能な範囲で、他のアプリケーションを終了せずに利用できる
速度と結果の品質 の面で、現在のホスティング型モデルと競争できるレベル
ユーザーのLLM利用の 80%がコード作成 に関連しているため、Qwen2.5-Coderは有意義な改善になりそうだ

1件のコメント

savvykang 2024-11-15

コーディングのユーザーシナリオとは少し異なりますが、ClaudeのJSONモードをどう実装しているのか不思議です。いくつかのホスティングモデルは、JSON出力を生成するよう促しても、コメント付きのJavaScriptやMarkdownテキストを作ってしまうんですよね。ホスティングモデルを何度か使ってみた経験では、マネージドサービスを利用するほうが成果物の満足度が高かったです。ホスティングモデルでは実現できない何かがまだある気がします。