Qwen3.5/3.6 hybridモデルを採掘カード（CMP 100-210）で動かすCUDA推論エンジン

(github.com/Haru-neo)

2 ポイント投稿者 haruneo 2026-05-28 | まだコメントはありません。 | WhatsAppで共有

大きなモデルを安く動かす方法はないかと考えていて、CMP 100-210を見つけたので4枚買ってみました。
HBM2が1枚あたり16GBあるので、良さそうに見えました。

ところが、NVIDIAが本気で塞いでいました。

そのため、vLLM、llama.cppの標準経路、FA、bnbはどれも使えません。
cuBLAS Tensor Coreを触るものは全部、1/64の速度で動くか落ちます。

64万円分のGPUが机の上で転がっているのがもったいなくて、自分で推論エンジンを書きました。

スロットリングがかからない経路だけを選んで:

現在はQwen3.5/3.6 hybrid（GDN + Attention）モデルであれば、27B / 9Bの両方に対応しています。
OpenAI互換API、streaming、tool calls、vision（mmproj）、/no_think も使えます。

ベンチマーク（vs llama.cpp build 8462、同じQ8_0 GGUF、同じハードウェア）:

率直な制約:

同じ環境に閉じ込められている人たちの助けになればうれしいです。
高校1年生がClaudeを使って作ったエンジンなので、バグやスパゲッティコードが多いかもしれません。
IssueやPR歓迎です！

関連記事