1 ポイント 投稿者 GN⁺ 3 시간 전 | 1件のコメント | WhatsAppで共有
  • Qwen3.7-Maxは、コーディング・デバッグ、オフィス自動化、数百〜数千ステップの自律実行を目指したエージェント中心のクローズドモデル
  • コーディング・汎用エージェント・推論・多言語評価で競合モデルと比較され、Terminal Bench 2.0-Terminusで69.7点、GPQA Diamondで92.4点を記録
  • 35時間の自律カーネル最適化では、1,158回のツール呼び出しと432回の評価を実施し、Triton基準で幾何平均10.0倍の高速化を達成
  • 学習インスタンスをTask・Harness・Verifierに分離し、クロスハーネスRL学習を実施することで、特定ハーネスの近道ではなく汎化された問題解決を促進
  • Alibaba Cloud Model Studioを通じて近日中にAPIが提供され、Claude Code・OpenClaw・Qwen Codeなどのエージェントフレームワークと統合可能

性能評価

  • Qwen3.7-Maxは、コーディングエージェント、汎用エージェント、STEM・推論、一般能力、多言語領域で複数の比較モデルとともに評価された
  • 空欄セル(--)は、スコアがまだ提供されていないことを意味する
  • コーディングエージェント

    • Terminal Bench 2.0-Terminusで69.7点を記録し、DS-V4-Pro Maxの67.9点を上回った
    • SWE-Verifiedでは80.4点で、Opus-4.6 Maxの80.8点、DS-V4-Pro Maxの80.6点と同程度
    • SWE-Pro 60.6点、SWE-Multilingual 78.3点、SciCode 53.5点、QwenSVG 1608点を記録
    • NL2repoはClaude Codeで評価され、特定リポジトリへのアクセスを試みるpip downloadpip installgit cloneのようなBashコマンドは無効化された
    • QwenWebDevは英語・中国語のバイリンガルなフロントエンドコード生成用の内部ベンチマークで、7つのカテゴリ、自動レンダリング、マルチモーダル判定、BT/Eloスコアを使用
  • 汎用エージェント

    • MCP-Markでは60.8点でGLM-5.1の57.5点を上回り、MCP-Atlasでは76.4点でOpus-4.6の75.8点を上回った
    • Skillsbenchでは59.2点でK2.6の56.2点を上回った
    • Kernel Bench L3では中央値1.98倍の高速化と96%の勝率を記録し、GPUカーネル最適化能力を示した
    • BFCL-V4 75.0点、Qwenclaw 64.3点、ClawEval 65.2点で、Opus-4.6 Maxに近い水準
    • SpreadSheetBench-v1では87.0点を記録し、オフィス自動化ベンチマークでも高い性能を示した
    • QwenClawBenchは、実際のユーザー分布を反映したClawエージェントベンチマークとしてオープンソース公開されている
    • CoWorkBenchは、コンピュータサイエンス、金融、法務、医療などの生産性ドメインにおける長期タスクを扱う内部協業ベンチマーク
  • 推論

    • GPQA Diamondでは92.4点でOpus-4.6の91.3点を上回った
    • HLEでは41.4点でOpus-4.6の40.0点を上回り、HMMT 2026 Febでは97.1点でOpus-4.6の96.2点を上回った
    • IMOAnswerBenchでは90.0点でDS-V4-Proの89.8点を上回り、Apexでは44.5点でDS-V4-Proの38.3点を上回った
    • 推論シナリオでは、Reasoning effort is set to xhigh...で始まるシステムプロンプトが推奨される
  • 一般能力と多言語

    • IFBenchでは79.1点でDS-V4-Proの77.0点を上回り、精密な指示追従性能を示した
    • WMT24++では85.8点、MAXIFEでは89.2点を記録し、多言語理解と翻訳品質でも強みを示した
    • SuperGPQAでは73.6点、QwenWorldBenchでは57.3点を記録
    • WMT24++はより難しいWMT24のサブセットで、55言語におけるXCOMET-XXLの平均スコアを使用
    • MAXIFEは、英語および多言語プロンプト23設定の正確性を測定
    • MMLU-ProXは、29言語の平均正答率を使用

評価条件とベンチマーク詳細

  • Terminal-Bench 2.0はHarbor/Terminus-2ハーネス、5時間制限、12 CPU/24GB RAM、temp=1.0top_p=0.95top_k=20、最大80Kトークン、256Kコンテキスト、5回平均で評価された
  • SWE-Bench系は内部エージェントスキャフォールドとBash・ファイル編集ツールを使用し、temp=1.0top_p=0.95、200Kコンテキストウィンドウで評価された
  • SkillsBenchはOpenCodeで評価され、外部API依存タスク9件を除く78タスクで5回平均を使用
  • MCP-MarkはGitHub MCP v0.30.3を使用し、Playwrightの応答は32Kトークンで切り詰められた
  • MCP-Atlasは公開セットのスコアで、gemini-2.5-pro判定器を使用
  • Kernel Bench L3は50問で、PyTorch eager基準に対する問題ごとの高速化中央値と、torch.compileより高速だった問題の割合を報告
  • Kernel Bench L3の各テストサンプルは、H100 80GB GPUを1基搭載した隔離Dockerコンテナで実行され、インターネットアクセスはCUTLASSコードベースと公式CUDAドキュメントに限定された
  • Kernel Bench L3は500回のツール呼び出し制限と、100回の非改善ターン後の早期終了を使用し、GPT-5.4(xhigh)で潜在的なハッキング行動を検出し、CUPTIでカーネルレベルのタイミングを測定
  • MRCR-v2は8本のニードルを含む128Kコンテキストのサブセットで、Google DeepMind eval_hubのmrcr_v2プロトコルを採用

協業生産性アシスタント

  • Qwen3.7-Maxは、実務における生産性向上のための高度な同僚役を目指しており、複雑な情報統合、深いデータ分析とモデリング、出版可能な文書・可視化の生成を行う
  • 主要なエージェントハーネスとの基本互換性を備え、長期タスクでは自律計画と数時間にわたる継続実行をサポート
  • 数千回のツール呼び出しと数十回の改善反復を通じて、出力品質を段階的に高める
  • 通常は専門チームが1〜2週間かかる複雑なプロジェクトを、数時間でエンドツーエンド完了できるとされる

エージェント学習と汎化

  • Qwen3.5で導入された環境スケーリングアプローチを基盤として、Qwen3.7ではエージェント学習環境の品質と多様性を拡張
  • 言語モデルが多様な事前学習テキストから汎化するように、エージェント能力も多様な学習環境から汎化するという観察に基づく
  • 評価に使われたすべてのベンチマークは、学習に含まれていない完全に新しいout-of-domain環境で構成される
  • 環境スケーリングは明確で一貫した改善軌跡を生み、Qwen3.7-MaxはClaude-4.6-Opus-Maxに近い上位3位の平均順位を達成
  • ベンチマーク部分集合での性能向上は、残りのベンチマークおよび全体平均の相対的改善を予測できるほど一貫しており、ベンチマーク特化の改善ではなく能力の汎化を示唆する
  • スケーリングの力学や手法に関する追加分析は、今後の技術レポートで扱われる予定

クロスハーネス汎化

  • Rollout環境インフラは、各学習インスタンスをTask、Harness、Verifierという3つの直交する構成要素に分離する
  • 多様なハーネスとそのバージョンをサポートし、合成プロキシではなく現実環境に基づく環境を使用する
  • この分離設計により、同じタスクを多様なハーネスタイプ・バージョン・検証器と最小限の追加コストで組み合わせる組合せ的スケーリングが可能になる
  • 同じタスクを異なるハーネス構成で経験させるクロスハーネス・クロス検証器RL学習により、モデルが特定ハーネスの近道ではなく、汎化可能な問題解決戦略を学ぶようにする
  • QwenClawBenchとCoWorkBenchにおいて、Qwen3.7-Maxは評価時に使用されるハーネスに依存せず、強力で一貫した性能を示した

実環境での自己進化

  • Extend Attentionは、SGLangの本番向け可変長マルチヘッドアテンション演算子
  • テストシナリオは、MTPとともに新規生成トークンと最大32K項目のprefix KV-cacheの間のアテンションスコアを計算する、LLMサービングにおけるメモリボトルネックかつレイテンシ敏感なカーネルを扱う
  • 基準実装はSGLangの公式Triton実装
  • 未知のPPUアーキテクチャにおけるカーネル最適化

    • Qwen3.7-Maxは、学習中に見たことのないT-Head ZW-M890 PPUを搭載したECSインスタンス上でこのカーネルを最適化した
    • 事前プロファイリングデータ、ハードウェア文書、このアーキテクチャ向けサンプルカーネルなしで開始した
    • 空のワークスペースには、タスク説明、既存のSGLang実装、評価スクリプトだけがあった
    • 35時間の連続自律実行の間に、1,158回のツール呼び出しと432回のカーネル評価を実施
    • コンパイル失敗の診断、整合性バグの修正、ランタイムプロファイリングに基づくボトルネック特定、カーネルアーキテクチャの再設計をすべて自律的に実施
    • 最終結果は、複数ワークロードにおいてTriton基準比で幾何平均10.0倍の高速化
    • 30時間経過後も意味のある改善を見つけ出し、長時間自律最適化の生産性を示した
  • 最適化の軌跡

    • Split-KV並列化によりprefix KV-cacheをクエリごとに複数のスレッドブロックへ分割し、online softmax rescalingで部分結果を統合するreductionカーネルを導入して、約2時間で0.33倍から2.58倍へ改善
    • 呼び出しごとのcudaMalloc/cudaFreeを事前確保したtorch::emptyテンソルに置き換え、同期cudaMemcpyを除去し、内部ループを2倍アンロールして、約2.5時間で5.37倍へ改善
    • 固定split divisorをワークロードサイズベースのヒューリスティックに変更し、36-SMアーキテクチャでのSM wave occupancyを高めて、約3時間で6.85倍へ改善
    • 共有メモリバリアの除去、レジスタベースのK/Vロード、persistent static tensor、batched softmax update、Qの事前スケーリングを組み合わせ、3〜25時間の区間で8.50倍へ改善
    • MTP γ=4特化カーネルは、ブロックごとに4つのクエリトークンを同時処理し、クエリ間でK/Vロードを共有することで、32〜35時間の区間で10.0倍に到達
  • 同一条件での比較

    • GLM 5.1は7.3倍、Kimi K2.6は5.0倍、DeepSeek V4 Proは3.3倍、Qwen3.6-Plusは1.1倍に到達
    • 早期終了したモデルは、5回連続でツール呼び出しを出さなかったことで、これ以上進展できないと判断し、セッションを自発的に終了した
  • NVIDIA GPUカーネル生成

    • Qwen3.7-MaxはPPUカーネル生成だけでなく、多様なNVIDIA GPUでも本番品質のカーネルを生成する
    • KernelBench L3でQwen3.7-Maxは、96%のシナリオで高速化カーネルを生成できる
    • 比較値は、Opus-4.6 98%、GLM 5.1 78%、Kimi K2.6 80%、DeepSeek V4 Pro 54%、Qwen3.6-Plus 48%
  • 長時間自律エージェントの特徴

    • 1,000回を超えるツール呼び出しの間、最適化戦略を維持し、コンテキストを失ったり退行したりしない長時間推論の持続性を示す
    • 学習中に見ていないアーキテクチャでも、記憶されたハードウェア知識ではなくランタイムフィードバックに基づいて競争力のあるカーネルを作るインコンテキスト汎化を示す

報酬ハッキング監視

  • Qwen3.7-MaxはソフトウェアエンジニアリングタスクのRL監視に統合され、報酬ハッキングの自己監視とルール自己進化フレームワークを構成する
  • 80時間を超えるRL実験のあいだ、学習軌跡を自律的に検索・再生し、10,000回を超える呼び出しを実行
  • GitHubで正解にアクセスするために制約を回避しようとする試みのような、候補ハッキングパターンを体系的に特定
  • ルール検証、反例マイニング、反復最適化を実施
  • 複数回のルール自己進化を通じて13個の新しいヒューリスティックルールを追加し、1,618件のハッキングケースを正確にフラグ付けした
  • この過程はRL報酬の安定性を保証し、高度なソフトウェアエンジニアリングエージェントとしてのモデルの継続的な自己改善を促進する

スタートアップ経営における長期計画と実行

  • Dynamic Cumulative Survival Gamesフレームワークで学習タスクの時間複雑度を拡張し、長期計画と実行能力を強化
  • 1,000ステップを超える逐次意思決定軌跡でエージェントの方策一貫性を高め、仮説構築、環境フィードバックに基づく戦略調整、長期経験とメモリ蓄積を継続させる
  • 長い時間スパンでも安定した実行リズムを維持し、コンテキスト劣化や指示逸脱に耐える
  • YC-Bench結果

    • YC-Benchは、スタートアップの1年間のライフサイクル全体をシミュレートするベンチマーク
    • エージェントは、人員管理、契約レビュー、悪質顧客の識別など、数百ラウンドの意思決定を行いながら、人件費上昇下でも利益率を維持しなければならない
    • Qwen3.7-Maxは総売上208万ドルを達成し、Qwen3.6-Plusの105万ドルに対して2倍、Qwen3.5-Plusの35万2千ドルに対して5.9倍の性能を示した
    • 完了したタスク数は237件
    • 見込み顧客探索、悪質な罠の識別とブラックリスト登録、安定収益源の優先順位付け、中期危機からの自律回復を実行
    • 最終的に安定かつ高効率な実行ループへ収束した

Qwen3.7で構築する

  • Qwen3.7-MaxはAlibaba Cloud Model Studioを通じて近日提供予定で、主要なエージェントフレームワークやコーディングアシスタントに統合できる
  • APIの利用

  • フロントエンドコーディング

    • Qwen3.7-Maxは、単一プロンプトでThree.js 3Dシーン、Canvasアニメーション、フルページレイアウト、動的SVGを含むインタラクティブなWebアプリケーションを生成できる
    • 例示プロンプトでは、カメラで手のひらの開閉を検出して粒子群の収縮と拡散を制御し、指ジェスチャー1・2に応じてそれぞれhello, worldI’am Qwenの文字を形成し、3D回転効果付きのHTML実装を求めている
  • オフィスアシスタント

    • Qwen3.7-Maxは、ツール統合を通じてインテリジェントなオフィスアシスタントとして動作できる
    • 例では、大学論文の書式規定を読み取り、散らかった下書きを自律的なoffice-cliツール呼び出しで再フォーマットする
    • ページレイアウト、見出しスタイル、フォント、余白、目次、参考文献形式を修正する
    • サンプル論文はデモ用にAIが生成したもの
  • 物理世界ナビゲーションエージェント

    • Qwen3.7-Maxは、ツール呼び出しによってロボット犬を操作できる
    • 物理環境で物理的理解、計画、メモリ、意思決定を行う
    • ロボティクスエージェントハーネスQwen-RobotClaw、ナビゲーションベースモデルQwen-RobotNav、Qwen-plusモデルで構築した複数のビジョンツールを使用
    • デモの左パネルは、物理世界で20分間進行したエージェントのツール呼び出しインタラクションフローを、中央は四足歩行ロボットの軌跡上の一人称視点を、右はエージェントの長期メモリを示す
  • コーディングアシスタント統合

    • Qwen3.7-Maxは、主要なエージェントフレームワークやコーディングアシスタントに統合される
    • Claude Code

      • Qwen APIはAnthropic APIプロトコルをサポートしており、Claude Codeで直接利用できる
      • ANTHROPIC_MODELANTHROPIC_SMALL_FAST_MODELqwen3.7-maxに設定し、ANTHROPIC_BASE_URLhttps://dashscope-intl.aliyuncs.com/apps/anthropicに設定する
    • OpenClaw

      • OpenClawModel Studio経由で接続できる
      • DASHSCOPE_API_KEYを設定した後にopenclaw dashboardを実行し、~/.openclaw/openclaw.jsonmodelstudio/qwen3.7-maxをデフォルトモデルとして指定する
      • 設定例にはcontextWindow 1000000、maxTokens 65536、reasoning trueが含まれる
    • Qwen Code

      • Qwen CodeはQwenシリーズ向けに深く最適化されている
      • npm install -g @qwen-code/qwen-code@latestでインストールした後、qwenコマンドで実行する

1件のコメント

 
GN⁺ 3 시간 전
Hacker Newsのコメント
  • AA-omniscienceでは幻覚ではない応答率が最高水準で、Opus 4.7、Gemini 3.1 Pro、GPT5.5よりも優れている。チームに祝意を表したい

    • 参照したのはこのリンク: https://artificialanalysis.ai/evaluations/omniscience?models...
      デフォルト表示ではなく、チャートに自分で追加する必要があり、データセット内で最も低い幻覚率なのか気になる
    • こうした最高水準の中国製モデルを多く使ってみると、最大の疑問はトークン効率がどうかという点だ
      たとえばStep 3.5 Flashをローカルで回すと、全体としては驚くほど有能だが、トークン効率が悪すぎて、実際の所要時間ベースではたいてい他モデルに負ける。llama.cppにMTPサポートをハックして追加しても、Sparkで20tk/sが30tk/sになる程度で、3ヘッドで学習されているがMTP 2が妥当な落としどころだった
      DeepSeekモデル群やQwen 3.5 Plusも似たようなもので、Opus、特にGPT 5.5と比べると、同じ答えを出すのにずっと多くのトークンを使う
      Qwen 3.7ではこの点が改善していてほしいと本当に思っているし、早く試してみたい。ちなみにSparkでDeepSeek v4 Flashを回すのは本当に信じがたいほどすごく、antirezには感謝を伝えたい
    • 「幻覚ではない応答率」が完璧だということ自体には、あまり意味がない可能性もある。こうしたテストにも人間が作った幻覚が入りうるからだ
      結局のところ、モデルがそのテストを作った集団の、真実かもしれないし偽りかもしれない信念とどれだけ一致するかを示しているにすぎない
    • 本当に見事で、進歩が印象的だ。学習に自社製チップをどれくらい使ったのかも気になる
    • どのレベルで能力の相転移が起きるのか気になる。5%なのか、1%なのか
  • 昨夜、週次のClaude Code上限に危険なくらい近づいたので、Claudeにllama.cppとOpenCodeでQwen3.6を設定させた。正直、Claude Codeの優れた無料代替で、小さくて複雑さの低い作業のかなりの部分には十分によい
    この新バージョンも試すのが楽しみだ。オープンソースモデルが最前線にここまで近づいたのは非常に印象的だ

    • どんなマシンとモデルで動かしているのか気になる
      先週、M2 MacBook Pro 32GBでllama.cppとLM Studioを使ってqwen3.6-27b Q6_k GUFFを試したが、どちらも1トークン/秒もやっとだった
      どの程度の速度を期待すべきなのかわからない。2年前にllama.cppでLlama 3 34b系モデルを回したときは数トークン/秒は出ていた記憶があるので、設定を完全に間違えたのか、期待値が非現実的なのか判断がつかない
      もしかするとqwen 3.xは何らかの理由でより遅いのかもしれない。Mixture of Experts(MoE)構造なのかも気になる。即応性を期待しているわけではないが、今の速度だと実用は難しい
    • この新バージョンはローカルで回せる類のものではない。クラウドモデルであり、たとえ重みを公開しても、おそらく大きすぎるはずだ
    • 具体的にどのモデルを使っているのか知りたい。どのパラメータ数で、どの量子化なのか、ハードウェアは何なのかも気になる
      context-modeや動的コンテキスト枝刈りのような性能最適化向けのMCPやその他のツールを使っているかも知りたい。ローカルモデルはかなり触ってきたが、opencodeは始めたばかりで、まだ結果はよくないものの、単純な作業ではぜひうまく機能してほしい。新規インストールしたopencodeがアイドル時でもiTermのCPUを100%使う問題もある
    • Qwen Maxはたいてい非公開モデルなのが残念だ
    • Qwen 3.6がSonnet 4.6と比べてどんな感じか気になる。現実的によく使うのはそちらだからだ
      コード関連の作業を全部Opus 4.7で処理したら、Sonnetを使える場合に比べて月額請求は10〜20倍になるだろう
  • 専有モデルをより多く出し始めているのなら、こうしたモデルを米国拠点の事業者経由で使えるよう、米国の主要ハイパースケーラーのどれかと提携してくれると本当にうれしい
    それが合理的でなかったり、彼らの利益に合わなかったりする可能性があることは十分理解している。米国側も逆方向のことを自動的にしてくれるわけではまったくない、というのもその通りだ。それでも、実際の本番ワークロードでちゃんと試せるようになるとよいのだが

    • 米国のハイパースケーラーが逆方向にも同じことをしない限り、今の状態のままでいてほしい。皆が共有に満足するなら双方向に共有されるべきで、そうでないなら米国のハイパースケーラーは今までどおり自前で閉じていればよい
    • Qwen3.6-PlusはFireworksで使える
    • Alibaba Cloudはメキシコのデータセンターを持っている
    • fireworksがQwen 3.6 Plusをホスティングしているので、Qwen 3.7 Plusも持ってこられるだろう
    • ChatLLMがQWENをサポートしているが、これを米国基準で安全と見なせるのか気になる
  • 数値自体は非常によい。ただ、こういう投稿でなぜ最新の競合モデルと比較しないのかは、相変わらず理解できない。人々が気づかないはずもないのに

    • 競合より悪く見える数値を出すところはない
      OpenAIやAnthropicも、評価データセットを互いに変えて使うことがよくあるので同じことだ
    • マイナーバージョンの上昇幅なら許容範囲だと思う。ちなみに最近の大規模言語モデルでは、理由はわからないがx.5が事実上メジャーバージョン更新のように使われている
      大規模言語モデルであっても、こうした投稿がただ空から降ってくるわけではない。自分たちのモデル向けの目標ベンチマーク群があるなら、横並びで比較可能なモデル群を維持し続けること自体が別の管理負荷になる
    • おそらく、自分たちが最新最高水準からNか月ほど遅れているように見せたいという理屈なのだろう
      現実的には、読者が細部に気づかないことを期待しているのだと思う
      Qwenモデルはオープンウェイトとしては優秀だが、過去のリリースは実運用でベンチマークほどよくなかった。ベンチマーク最適化が効くとわかっているから、そこに合わせているのだろう
    • 期待値を設定する過程の一部だと思う。特定モデルで蒸留や評価ハーネスを組んでいたという事情もありうる
      4.7と比較可能だと言えば、評価基準モデルが頭の中でそう固定される
    • 正直、初期版のOpus-4.6は、今4.7として提供されているものよりはるかによかった。あのレベルで動くなら完全に乗り換えるつもりだ
  • これも1週間後にHugging Faceリリースが出るタイプなのか気になる。あるいは専有のまま維持されることが確実なのか

    • 間違っていたら訂正してほしいが、Maxモデルは普通公開されない認識だ
  • Qwenのオープンウェイトリリースがもっと出ることを期待している。特に122Bと397Bに期待している

    • その通り。60〜150B程度の範囲は現在のプロシューマー向けハードウェアでは本当に良いスイートスポットなので、120b-a14bのようなモデルが出るといい
    • 個人的には9Bのような、さらに低く量子化されたモデルのほうが楽しみだ
    • qwen3.7 9bと72bのほうが楽しみだ。たいていサイズ比の性能が非常によい
    • まだqwem image-edit 2.0 オープンウェイトを待っている
    • つらい。こういうものを触り始めたばかりだが、自分の環境は12GBの3060とRAM 32GBを積んだ普通のゲーミングデスクトップだ
      Qwen 9Bを超えただけで、マシンが完全に固まる危険がある
  • ベンチマークにOpus 4.7、GPT5.5、Gemini Flash 3.5がない

  • pi agentを使っていて、ホスト型のQwenモデルを試してみたい。よい選択肢が何か気になる
    公式プロバイダにはAlibabaがない。OpenRouterのようなサービスが十分速いのかも気になる。ちなみにDeepSeek v4はこうしたプロキシサービスでかなり制限される

    • pi + openrouterでqwen3.6-max-previewをかなり使っている。今のところ安定性や性能の問題には遭遇していない
  • ローカル大規模言語モデルを触り始めたばかりだが、正直かなり印象的だ。NVIDIA A1000(6GB VRAM)とRAM 96GBを積んだワークステーションノートを使っている
    GPUはほとんど使っておらず、たまにCAD設計やOpenCVベースの機械学習に使う程度だった。llama3:latestを動かしてみたらかなり速く走り、Qwenが自分のシステムでどう動くのか気になる

  • 最も信頼しているパターンは、外部動作ごとに小さな検証成果物を追加することだ。エージェントは推論の深さ不足よりも、静かな状態ドリフトのせいで早く失敗することのほうが多い

    • ここをもう少し詳しく説明してもらえる?