Rapid-MLX - Apple Silicon専用の超高速ローカルAIエンジン
(github.com/raullenchai)- Apple Silicon MacでローカルAIモデルを実行する推論エンジンで、AppleのMLXフレームワークをベースにネイティブのMetalコンピュートカーネルを活用
- Ollama比で最大4.2倍高速な推論速度 - Phi-4 Mini 14Bで180 tok/s(Ollama 56 tok/s比3.2倍)、Qwen3.5-9Bで108 tok/s(Ollama 41 tok/s比2.6倍)
- キャッシュ済みの状態でTTFT 0.08秒(Kimi-Linear-48B基準)、大半のモデルで0.1〜0.3秒水準
- 17種類のツール呼び出しパーサーを内蔵し、モデル名ベースで自動検出 — 4bit量子化モデルが壊れたツール呼び出しをテキストで出力しても、自動で構造化形式に復元
- 16GB MacBook Air(Qwen3.5-4B, 160 tok/s)から256GB Mac Studio Ultra(DeepSeek V4 Flash 158B, 31 tok/s, 1Mコンテキスト)まで、RAM別の最適モデルマッピングを提供
- 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → RAM使用量2.4GB、160 tok/s、チャット・コーディング・ツール呼び出しが可能
- 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB、108 tok/s、汎用モデル
- 32GB Mac Mini/Studio: Qwen3.5-27B 4bit(15.3GB, 39 tok/s)、Nemotron-Nano 30B 4bit(18GB, 141 tok/s, ツール呼び出し100%)、Qwen3.6-35B-A3B 4bit(20GB, 95 tok/s, 256 MoE expert, 262Kコンテキスト)
- 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB、83 tok/s、賢さと速さの最適なバランス
- 96GB+: Qwen3.5-122B mxfp4 → 65GB、57 tok/s、フロンティア級の知能
- 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB、56 tok/s、day-0フロンティアMoE
- 192~256GB: Qwen3.5-122B 8bit(130GB, 44 tok/s)またはDeepSeek V4 Flash 8-bit(136GB, 31 tok/s, 1Mコンテキスト)
- 4bitはメモリ節約向け(大半で推奨)、8bitは高品質推論向け、mxfp4は高品質な4bitフォーマット
- chain-of-thoughtモデルの推論過程を別の
reasoning_contentフィールドに分離する推論分離機能 - Qwen3、DeepSeek-R1、MiniMax、GPT-OSSフォーマットをサポート - 標準Transformer向けのKVキャッシュトリミングと、Qwen3.5ハイブリッドアーキテクチャ向けのDeltaNet状態スナップショット(~0.1msで復元)により、マルチターン対話のTTFTを2〜5倍改善し、追加フラグなしで常時有効
- ローカルのプリフィルが遅い大規模コンテキスト要求をGPT-5やClaudeなどのクラウドLLMへ自動切り替えするスマートクラウドラウティングをサポート
- OpenAI APIのドロップイン置き換え — Cursor、Claude Code、Aider、LangChain、PydanticAI、smolagents、Hermes Agent、Open WebUIなど、OpenAI互換アプリなら
localhost:8000/v1ですぐに連携可能 - Vision(Gemma 4, Qwen-VL)、Audio(TTS/STT)、Embeddings、Gradio Chat UI、スキーマ制約付きJSON生成など、マルチモーダルおよびオプション拡張をサポート
- TurboQuant V-cache(メモリ86%削減)、KVキャッシュ量子化、プリフィルチャンク化、tool logits biasなど、多様な最適化手法を内蔵
- モデル+エージェントハーネス互換性を測定する**MHI(Model-Harness Index)**を提供 — Qwopus 27BがMHI 92で最高スコア
- Speculative Decode(1.5~2.3倍)、EAGLE-3(3~6.5倍)、ReDrafter(1.4~1.5倍)など、追加の高速化手法がロードマップに含まれる
- Apache 2.0ライセンス
6件のコメント
128GBのMBPであれを実際に使う人はいるのでしょうか?(意見が気になって)
だいたい800万円くらいしたと思いますが、1年ほど経てば採算が合うのかなとも思ったり…。
また考えてみると、local AIを使うとしてもサブスク料金プランも一緒に使いそうですね(笑)
M5 Max 128GBを使っていますが、codex、deepseek、kimiは全部サブスク契約していて、APIもお金を払って使っています(笑)。ローカルモデルは、128GBのMacBookですら実用的に使おうとすると、Qwen 3.6 27Bあたりがほぼ唯一の選択肢です。ほかの同程度のパラメータのモデルは性能が落ちますし、122Bモデルのようなものは立ち上がりはするものの、実用になるレベルでは動きませんでした。
速度の数値も印象的ですが、個人的には OpenAI API 互換、ツール呼び出しパーサー、reasoning の分離のほうがより目を引きます。
ローカルモデルを開発ツールやバックエンドのエージェントフローに組み込んでみると、純粋な推論速度と同じくらい、モデルごとの応答フォーマットの違い、壊れた tool call の復旧、長いコンテキストでの TTFT が実際の使い勝手を大きく左右するんですよね。そういう意味では、「高速なローカル推論エンジン」というより、「エージェントハーネスに安定して接続できるローカルエンジン」に近く見えます。
ベンチマークは同一条件で再現してみる必要がありますが、Apple Silicon でこれくらいのローカル開発ループが可能になれば、プロトタイプや内部ツールの実験コストはかなり下がりそうです。MHI のようにモデル-ハーネス互換性を別途見ようとする試みも興味深いですね。
omlx と比べると性能がどうなのか気になりますね
個人的に antirez/ds4 で deepseek4 を回してみているのですが、速度は ds4 のほうが少し速いようですね。
ds4 は 128GB 専用なので少し微妙ですが、それ以外のモデルでは良さそうです。
最近、HuggingFace の CEO が Qwen3.6 27B で飛行機の中でコーディングしてみたら Opus レベルだと述べたツイートがかなり人気でしたが、これに 3.6 27B を載せてみようと思います。
https://x.com/julien_c/status/2047647522173104145
日本語での性能がどうなのか気になりますね.. 96GBのを使っていますが、有料のLLMより性能は落ちますよね..?
gemini cli 程度までできれば良さそうですね(笑)