3 ポイント 投稿者 GN⁺ 2025-07-23 | 1件のコメント | WhatsAppで共有
  • Qwen3-Coderは、480BパラメータのMixture-of-Experts構造と35Bのアクティブパラメータ256K〜1Mトークンのコンテキスト対応により、公開モデルの中でエージェント型コーディング分野の最高水準の性能を達成
  • Code RL、長期RLなど、実際のソフトウェアエンジニアリング問題に最適化された大規模強化学習手法を導入し、実行成功率と多様なタスク性能を大幅に向上
  • Qwen CodeClaude CodeなどのコマンドラインツールおよびAPIと連携し、Node.jsとOpenAI互換APIなど多様な開発環境ですぐに利用可能
  • 大規模並列環境とインフラにより、実際のコーディング作業で求められるプランニング、フィードバック、ツール活用など複雑な相互作用まで処理可能
  • 今後はさらに多様なモデルサイズ、低コスト展開、コーディングエージェントの自己改善可能性などに関する実験と発展を予告

Qwen3-Coder

  • Qwen3-Coderは、既存のコード生成モデルの中でもっとも**エージェント的(agentic)**な機能が強化されたオープンソースAIモデル
  • 最初に公開された主力版 Qwen3-Coder-480B-A35B-Instruct は、4800億パラメータのうち350億が活性化されるMixture-of-Experts構造を採用
    • 256Kトークンのコンテキストを標準サポートし、1Mトークンまで拡張可能
  • 優れた性能により、Agentic Coding、Browser-Use、Tool-Use など主要ベンチマークでオープンモデル中最高水準の結果を示し、Claude Sonnet 4に匹敵するコード/エージェント作業品質を実現
  • 同時公開された Qwen Code CLIツールは、Gemini Codeをベースにフォークし、特別なプロンプトと関数呼び出しプロトコルを適用することで、Qwen3-Coderのエージェント機能を最大限に引き出せるよう支援
  • Qwen3-CoderはOpenAI SDK、Claude Codeなど多様なコミュニティ開発ツールともスムーズに連携可能
  • 汎用基盤モデルとして、ソフトウェアの世界全般でエージェント型コーディングを実現することを目標とする

事前学習(Pre-Training)

  • トークン大規模化: 合計7.5兆トークン(コード比率70%)を使用し、コード能力とともに一般能力および数学能力もバランスよく強化
  • コンテキスト範囲拡張: 標準256K、YaRNベースの1Mトークンサポートにより、大規模リポジトリ級の動的データ(Pull Requestなど)まで処理可能
  • 合成データの品質向上: 既存のQwen2.5-Coderからノイズを除去して書き直したデータを活用し、全体のデータ品質を大きく改善

事後学習(Post-Training)

  • コード強化学習(Code RL)の拡張: 解くのは難しく、検証は容易

    • コード生成コミュニティの競争中心アプローチとは異なり、すべてのコードタスクを大規模強化学習(RL)ベースで実行・検証する方式を採用
    • 多様な実際のコーディングタスクに対して自動化テストケースを拡張し、強化学習用の学習インスタンスを大量生成して成功率を最大化
    • この方式により、コード実行成功率だけでなく他タスクの性能も同時に向上する結果を確認
    • 今後も解くのは難しいが検証は容易な新領域の発掘に注力する予定
  • 長期的強化学習(Long-Horizon RL)

    • SWE-Benchなど実際のソフトウェアエンジニアリング作業では、プランニング、ツール使用、フィードバック処理、意思決定などのマルチターン相互作用が不可欠
    • Qwen3-Coderは**長期RL(Agent RL)**を導入し、実環境でツールと相互作用しながらマルチターンタスクを解決できるよう訓練
    • Alibaba Cloudインフラ上に20,000の独立並列環境を構築し、大規模強化学習とリアルタイム評価までサポート
    • SWE-Bench Verifiedベンチマークでオープンソースモデル中最高性能を達成

Qwen3-Coderの使い方

  • Qwen Code: コマンドラインのエージェント型コーディング

    • Qwen Codeは研究目的で作られたCLIツールで、Gemini CLIをベースにQwen-Coder専用のパーサーとツールを追加でサポート
    • Node.js 20+環境を要求し、npmを通じて簡単にインストール・実行可能
    • OpenAI SDKプロトコルをサポートし、環境変数または.envファイルで設定して多様なLLMインフラで活用可能
    • Qwen-Codeコマンドで手軽にQwen3-Coderの力を活用可能
  • Claude Code連携

    • Qwen3-CoderはClaude Code環境でも利用可能
    • Alibaba Cloud Model StudioでAPIキーを発行し、Claude Codeと連携してインストール可能
    • プロキシAPIおよびclaude-code-configパッケージを通じて、多様なバックエンドモデル選択と簡単な設定をサポート
  • Cline連携

    • Cline開発環境でもQwen3-Coder-480B-A35B-Instructモデルを設定して利用可能
    • API ProviderはOpenAI Compatibleを選択し、Dashscopeで受け取ったAPI KeyおよびCustom Base URLを指定

活用事例(Use Cases)

  • 物理ベースの煙突解体シミュレーション
  • Qwen + Cline統合利用例
  • Qwen ChatベースのWeb開発
  • 有名な引用句を活用したタイピング速度測定
  • 回転するハイパーキューブ内でのバウンドボールシミュレーション
  • 太陽系環境の模擬実験
  • DUETゲーム生成 など、多様なコーディングおよびシミュレーション事例を提供

API連携

  • Alibaba Cloud Model Studioを通じてQwen3-CoderのAPIを直接利用可能
  • Python OpenAI SDKを使い、Qwen APIによる対話型コード生成を実演

今後の開発方針

  • Coding Agentの性能改善と、ソフトウェアエンジニアリングにおける複雑かつ反復的な作業の代行に向けて積極的に研究を進行中
  • さらに多様なモデルサイズの投入を準備中であり、同時に展開コスト削減も追求
  • Coding Agentの自己改善可能性などを含め、最終的には複雑で反復的なソフトウェアエンジニアリング作業において人間の生産性を最大化する方向を目指す

1件のコメント

 
GN⁺ 2025-07-23
Hacker Newsのコメント
  • 今、ローカルで使えるように2bitから8bitまでのGGUFを作成中
    1時間以内に HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF で公開予定
    24GB GPUと128〜256GB RAMを基準にした実行ドキュメントは こちら

    • ドキュメントに誤記がある気がする
      "Recommended context: 65,536 tokens (can be increased)" ではなく、公式ドキュメントでは出力長について "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models" と案内している
      つまり推奨出力長のこと
  • Qwen3-Coderは複数サイズで出ているが、個人的には小さいサイズを最も期待している
    ローカルで軽く回せるモデルでも、だんだんまともなコードを書けるようになってきていると思う
    当面はより大きなモデルが必要かもしれないが、自前ホスティングが現実的に難しいときでも、オープンウェイトの高品質モデルを選んで使えるのは良い
    小さいモデルを自由に試して、必要なときだけ大きいモデルを有料で使えるのも良い体験
    Qwenチームの今回のリリースを祝福し、さっそく使ってみる予定

    • 小さいモデルが大きいモデルを上回ることは、実際ほとんどないと思う
      大きいモデルのほうが、はるかに多くの知識と賢さを持てる
      小さいモデルも進歩するが、大きいモデルも同時に進歩する
      かつてHNはLLM分野の技術的中心地だったが、最近はRedditのほうが、実際に超大型モデルを回しているユーザーが多い
      自分で調べて試せば、自前ホスティングも十分現実的
  • "qwen-code" アプリは gemini-cli のフォーク版のように見える
    QwenLM/qwen-code
    ライセンス
    OSS CC(オープンソースのコードコンパニオン)クローンが、いつか1つの標準にまとまってほしい
    実際、ページでも "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code" と明記されている

    • 今は claude-code を中心に使っているが、重い推論は openai や gemini pro に zen mcp 経由で任せる運用
      gemini-cli も zen で対応しているので代わりに使えるし、qwen-coder が gemini-cli ベースなら対応追加もほぼ難しくなさそう

    • うちはすでに昨年24年末にRA.Aidをリリースしている
      これは aider が始めた方向性をさらに一歩進めた、CLIファーストで真のオープンソースコミュニティ志向のプロジェクト
      異なる法人に属する独立したメンテナー5人がフルコミット権限を持っている(うち1人は私のいる Gobii に加わって、Webブラウジングエージェントを開発中)
      Cursor、Windsurf、その他の agentic coding ソリューションと比べても十分競争力があると思う
      特定の大企業やモデルに依存しないFOSSベースの標準は絶対に必要だと感じる

    • Claude Code も対応していると理解しているが、これはクローズドソースで Anthropic API エンドポイントしかサポートしない構造のはずで、具体的にどう動いているのか気になる

    • 自分のプロジェクト Plandex も一度紹介したい
      Claude Code より先に始めており、複数プロバイダー(Anthropic、Google、OpenAI)のモデル組み合わせ対応だけでなく、オープンソースやローカルモデルも活用できる
      特に大容量コンテキストやステップ数の多い長期タスクに注力している
      plandex-ai/plandex GitHub

  • リポジトリにエージェント説明書として QWEN.md を追加しようという提案がある
    ただ最近のチームリポジトリでは、各エージェントごとに重複したMarkdownファイルが増えていて非効率

    • 自分はただ AGENTS.md にシンボリックリンクを追加している
      説明は全部同じなので、モデルごとに別で置く必要はない
      それに gitignore でモデル別バージョンは除外している
  • この変化の速さにどうやってついていけばいいのか気になる
    2〜3年後には単一の勝者ツールが決まっているのだろうか、と期待してしまう
    その頃にはみんな迷わず1つだけ使っていそう

    • 人は関心のある分野なら自然についていくもの
      週末には Kimi K2 を動かしてみて、ここ2日間は Ernie4.5-300B を回していた
      今朝は最新の Qwen3-235b をダウンロードし、今晩から使い始める
      今夜は Qwen3-Coder-480B を落としている最中—自分の回線速度だと2〜3日はかかりそう
      執着かな?

    • 役に立ちそうに見えるまでは、ただ無視しておけばいい
      正直、プロンプトボックスにテキストを入力するのに3年の経験が必要なわけでもないし、そんなに気にする必要はない

    • 気にしなくても構わない
      収益性のような問題さえ起きなければ、いずれ明確な本命ツールが自然に出てくる

    • なぜそう思うのか?
      この分野はリーダーボードが非常に不安定で、こうした不安定さが簡単に消える気配もない
      2〜3年後も状況は似ていて、プレイヤーだけが少し違う程度だと思う

  • Qwen3-Coder-480B-A35B-Instruct を動かすには、どの程度のハードウェアが必要なのか気になる
    性能が Sonnet に近いなら、多くの Claude Code ユーザーがローカル運用に興味を持つかもしれない
    ローカルインスタンスをチームで共同利用すれば、実際に経済性があるのかも気になる
    Claude Code と連携する使い方のドキュメントもある
    X(Twitter)では莫大な利用料金の請求書を共有するケースも珍しくない

    • 今、ディープラーニングモデル向けにダイナミックGGUF量子化版を準備中
      ざっくり24GB VRAM + 128GB RAMで2bit動的実行ができそうで、1時間以内に公開予定
      参考ドキュメント: docs.unsloth.ai/basics/qwen3-coder

    • 4bit版は 512GB M3 Mac Studio で約272GBのRAMを使う
      ダウンロードリンク
      実際の動作映像: X動画
      そのマシンの価格は約1万ドル

    • 非量子化・非蒸留版ベースのベンチマークには、H200を8枚ほど積んだクラスターが必要になりそう
      最新のB200はさらに速いが、はるかに高価
      30万ドル以上を見込む
      人は量子化版や蒸留版を出すとき、ベンチマーク結果はあまり公開しないことが多い

    • RAMだけでも500GB以上必要で、コンテキストまで考えるとさらに100〜200GBの余裕が必要
      24GB GPUとの組み合わせなら、速度は毎秒10トークン程度を見込む

    • 必ずしもとてつもない装備は要らない
      RTX Pro 6000 と 256GB RAM の組み合わせで十分

  • Cloud 4 と競合するオープンウェイトモデルとは興味深い
    MoE構造なので、本当にローカル実行できる可能性も感じる

    • 480GB をどこに置いて使えばそんな性能が出るのか、という疑問が湧く
      そんなRAMがあるのか?

    • Coder の登場がとても楽しみ

  • 最近の主要ベンチマークでは OpenHands(All-Hands-AI/OpenHands)をすべて標準スキャフォールドとして使う流れになっていてうれしい
    公開ベンチマークで "private scaffold" しか出てこないときほどもどかしいことはない

    • robert が AllHands について詳しく話している YouTube動画 がある

    • Cognition がここまで無能に見えるのはすごい
      数百万ドルの投資を受けながら Cursor や Claude Code に押され、今では自分たちのクローン(以前は OpenDevin と呼ばれていた)にまで市場を奪われている

  • OpenRouter ですぐ使える状態で上がっているのを確認した(openrouter.ai/qwen/qwen3-coder

  • 誰かこれを Rust/Ratatui で CLI にしてくれたらいいのに