Rapid-MLX - Apple Silicon専用の超高速ローカルAIエンジン

xguru · 2026-05-12T09:46:02+09:00

Apple Silicon MacでローカルAIモデルを実行する推論エンジンで、AppleのMLXフレームワークをベースにネイティブのMetalコンピュートカーネルを活用 Ollama比で最大4.2倍高速な推論速度 - Phi-4 Mini 14Bで180 tok/s（Ollama 56 tok/s比3.2倍）、Qwen3.5-9Bで108 tok/s（Ollama 41 tok/s比2.6倍）キャッシュ済みの状態でTTFT 0.08秒（Kimi-Linear-48B基準）、大半のモデルで0.1〜0.3秒水準 17種類のツール呼び出しパーサーを内蔵し、モデル名ベースで自動検出 — 4bit量子化モデルが壊れたツール呼び出しをテキストで出力しても、自動で構造化形式に復元 16GB MacBook Air（Qwen3.5-4B, 160 tok/s）から256GB Mac Studio Ultra（DeepSeek V4 Flash 158B, 31 tok/s, 1Mコンテキスト）まで、RAM別の最適モデルマッピングを提供 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → RAM使用量2.4GB、160 tok/s、チャット・コーディング・ツール呼び出しが可能 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB、108 tok/s、汎用モデル 32GB Mac Mini/Studio: Qwen3.5-27B 4bit（15.3GB, 39 tok/s）、Nemotron-Nano 30B 4bit（18GB, 141 tok/s, ツール呼び出し100%）、Qwen3.6-35B-A3B 4bit（20GB, 95 tok/s, 256 MoE expert, 262Kコンテキスト） 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB、83 tok/s、賢さと速さの最適なバランス 96GB+: Qwen3.5-122B mxfp4 → 65GB、57 tok/s、フロンティア級の知能 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB、56 tok/s、day-0フロンティアMoE 192~256GB: Qwen3.5-122B 8bit（130GB, 44 tok/s）またはDeepSeek V4 Flash 8-bit（136GB, 31 tok/s, 1Mコンテキスト） 4bitはメモリ節約向け（大半で推奨）、8bitは高品質推論向け、mxfp4は高品質な4bitフォーマット chain-of-thoughtモデルの推論過程を別のreasoning_contentフィールドに分離する推論分離機能 - Qwen3、DeepSeek-R1、MiniMax、GPT-OSSフォーマットをサポート標準Transformer向けのKVキャッシュトリミングと、Qwen3.5ハイブリッドアーキテクチャ向けのDeltaNet状態スナップショット（~0.1msで復元）により、マルチターン対話のTTFTを2〜5倍改善し、追加フラグなしで常時有効ローカルのプリフィルが遅い大規模コンテキスト要求をGPT-5やClaudeなどのクラウドLLMへ自動切り替えするスマートクラウドラウティングをサポート OpenAI APIのドロップイン置き換え — Cursor、Claude Code、Aider、LangChain、PydanticAI、smolagents、Hermes Agent、Open WebUIなど、OpenAI互換アプリならlocalhost:8000/v1ですぐに連携可能 Vision（Gemma 4, Qwen-VL）、Audio（TTS/STT）、Embeddings、Gradio Chat UI、スキーマ制約付きJSON生成など、マルチモーダルおよびオプション拡張をサポート TurboQuant V-cache（メモリ86%削減）、KVキャッシュ量子化、プリフィルチャンク化、tool logits biasなど、多様な最適化手法を内蔵モデル+エージェントハーネス互換性を測定する**MHI(Model-Harness Index)**を提供 — Qwopus 27BがMHI 92で最高スコア Speculative Decode（1.5~2.3倍）、EAGLE-3（3~6.5倍）、ReDrafter（1.4~1.5倍）など、追加の高速化手法がロードマップに含まれる Apache 2.0ライセンス

(github.com/raullenchai)

13 ポイント投稿者 xguru 7 시간 전 | 3件のコメント | WhatsAppで共有

Apple Silicon MacでローカルAIモデルを実行する推論エンジンで、AppleのMLXフレームワークをベースにネイティブのMetalコンピュートカーネルを活用
Ollama比で最大4.2倍高速な推論速度 - Phi-4 Mini 14Bで180 tok/s（Ollama 56 tok/s比3.2倍）、Qwen3.5-9Bで108 tok/s（Ollama 41 tok/s比2.6倍）
キャッシュ済みの状態でTTFT 0.08秒（Kimi-Linear-48B基準）、大半のモデルで0.1〜0.3秒水準
17種類のツール呼び出しパーサーを内蔵し、モデル名ベースで自動検出 — 4bit量子化モデルが壊れたツール呼び出しをテキストで出力しても、自動で構造化形式に復元
16GB MacBook Air（Qwen3.5-4B, 160 tok/s）から256GB Mac Studio Ultra（DeepSeek V4 Flash 158B, 31 tok/s, 1Mコンテキスト）まで、RAM別の最適モデルマッピングを提供
- 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → RAM使用量2.4GB、160 tok/s、チャット・コーディング・ツール呼び出しが可能
- 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB、108 tok/s、汎用モデル
- 32GB Mac Mini/Studio: Qwen3.5-27B 4bit（15.3GB, 39 tok/s）、Nemotron-Nano 30B 4bit（18GB, 141 tok/s, ツール呼び出し100%）、Qwen3.6-35B-A3B 4bit（20GB, 95 tok/s, 256 MoE expert, 262Kコンテキスト）
- 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB、83 tok/s、賢さと速さの最適なバランス
- 96GB+: Qwen3.5-122B mxfp4 → 65GB、57 tok/s、フロンティア級の知能
- 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB、56 tok/s、day-0フロンティアMoE
- 192~256GB: Qwen3.5-122B 8bit（130GB, 44 tok/s）またはDeepSeek V4 Flash 8-bit（136GB, 31 tok/s, 1Mコンテキスト）
- 4bitはメモリ節約向け（大半で推奨）、8bitは高品質推論向け、mxfp4は高品質な4bitフォーマット
chain-of-thoughtモデルの推論過程を別のreasoning_contentフィールドに分離する推論分離機能 - Qwen3、DeepSeek-R1、MiniMax、GPT-OSSフォーマットをサポート
標準Transformer向けのKVキャッシュトリミングと、Qwen3.5ハイブリッドアーキテクチャ向けのDeltaNet状態スナップショット（~0.1msで復元）により、マルチターン対話のTTFTを2〜5倍改善し、追加フラグなしで常時有効
ローカルのプリフィルが遅い大規模コンテキスト要求をGPT-5やClaudeなどのクラウドLLMへ自動切り替えするスマートクラウドラウティングをサポート
OpenAI APIのドロップイン置き換え — Cursor、Claude Code、Aider、LangChain、PydanticAI、smolagents、Hermes Agent、Open WebUIなど、OpenAI互換アプリならlocalhost:8000/v1ですぐに連携可能
Vision（Gemma 4, Qwen-VL）、Audio（TTS/STT）、Embeddings、Gradio Chat UI、スキーマ制約付きJSON生成など、マルチモーダルおよびオプション拡張をサポート
TurboQuant V-cache（メモリ86%削減）、KVキャッシュ量子化、プリフィルチャンク化、tool logits biasなど、多様な最適化手法を内蔵
モデル+エージェントハーネス互換性を測定する**MHI(Model-Harness Index)**を提供 — Qwopus 27BがMHI 92で最高スコア
Speculative Decode（1.5~2.3倍）、EAGLE-3（3~6.5倍）、ReDrafter（1.4~1.5倍）など、追加の高速化手法がロードマップに含まれる
Apache 2.0ライセンス

3件のコメント

parkindani 3 시간 전

omlx と比べると性能がどうなのか気になりますね

xguru 6 시간 전

個人的に antirez/ds4 で deepseek4 を回してみているのですが、速度は ds4 のほうが少し速いようですね。

ds4 は 128GB 専用なので少し微妙ですが、それ以外のモデルでは良さそうです。

最近、HuggingFace の CEO が Qwen3.6 27B で飛行機の中でコーディングしてみたら Opus レベルだと述べたツイートがかなり人気でしたが、これに 3.6 27B を載せてみようと思います。
https://x.com/julien_c/status/2047647522173104145

yangeok 7 시간 전

日本語での性能がどうなのか気になりますね.. 96GBのを使っていますが、有料のLLMより性能は落ちますよね..?

gemini cli 程度までできれば良さそうですね（笑）

Rapid-MLX - Apple Silicon専用の超高速ローカルAIエンジン

関連記事

3件のコメント