Rapid-MLX - Apple Silicon専用の超高速ローカルAIエンジン
(github.com/raullenchai)- Apple Silicon MacでローカルAIモデルを実行する推論エンジンで、AppleのMLXフレームワークをベースにネイティブのMetalコンピュートカーネルを活用
- Ollama比で最大4.2倍高速な推論速度 - Phi-4 Mini 14Bで180 tok/s(Ollama 56 tok/s比3.2倍)、Qwen3.5-9Bで108 tok/s(Ollama 41 tok/s比2.6倍)
- キャッシュ済みの状態でTTFT 0.08秒(Kimi-Linear-48B基準)、大半のモデルで0.1〜0.3秒水準
- 17種類のツール呼び出しパーサーを内蔵し、モデル名ベースで自動検出 — 4bit量子化モデルが壊れたツール呼び出しをテキストで出力しても、自動で構造化形式に復元
- 16GB MacBook Air(Qwen3.5-4B, 160 tok/s)から256GB Mac Studio Ultra(DeepSeek V4 Flash 158B, 31 tok/s, 1Mコンテキスト)まで、RAM別の最適モデルマッピングを提供
- 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → RAM使用量2.4GB、160 tok/s、チャット・コーディング・ツール呼び出しが可能
- 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB、108 tok/s、汎用モデル
- 32GB Mac Mini/Studio: Qwen3.5-27B 4bit(15.3GB, 39 tok/s)、Nemotron-Nano 30B 4bit(18GB, 141 tok/s, ツール呼び出し100%)、Qwen3.6-35B-A3B 4bit(20GB, 95 tok/s, 256 MoE expert, 262Kコンテキスト)
- 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB、83 tok/s、賢さと速さの最適なバランス
- 96GB+: Qwen3.5-122B mxfp4 → 65GB、57 tok/s、フロンティア級の知能
- 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB、56 tok/s、day-0フロンティアMoE
- 192~256GB: Qwen3.5-122B 8bit(130GB, 44 tok/s)またはDeepSeek V4 Flash 8-bit(136GB, 31 tok/s, 1Mコンテキスト)
- 4bitはメモリ節約向け(大半で推奨)、8bitは高品質推論向け、mxfp4は高品質な4bitフォーマット
- chain-of-thoughtモデルの推論過程を別の
reasoning_contentフィールドに分離する推論分離機能 - Qwen3、DeepSeek-R1、MiniMax、GPT-OSSフォーマットをサポート - 標準Transformer向けのKVキャッシュトリミングと、Qwen3.5ハイブリッドアーキテクチャ向けのDeltaNet状態スナップショット(~0.1msで復元)により、マルチターン対話のTTFTを2〜5倍改善し、追加フラグなしで常時有効
- ローカルのプリフィルが遅い大規模コンテキスト要求をGPT-5やClaudeなどのクラウドLLMへ自動切り替えするスマートクラウドラウティングをサポート
- OpenAI APIのドロップイン置き換え — Cursor、Claude Code、Aider、LangChain、PydanticAI、smolagents、Hermes Agent、Open WebUIなど、OpenAI互換アプリなら
localhost:8000/v1ですぐに連携可能 - Vision(Gemma 4, Qwen-VL)、Audio(TTS/STT)、Embeddings、Gradio Chat UI、スキーマ制約付きJSON生成など、マルチモーダルおよびオプション拡張をサポート
- TurboQuant V-cache(メモリ86%削減)、KVキャッシュ量子化、プリフィルチャンク化、tool logits biasなど、多様な最適化手法を内蔵
- モデル+エージェントハーネス互換性を測定する**MHI(Model-Harness Index)**を提供 — Qwopus 27BがMHI 92で最高スコア
- Speculative Decode(1.5~2.3倍)、EAGLE-3(3~6.5倍)、ReDrafter(1.4~1.5倍)など、追加の高速化手法がロードマップに含まれる
- Apache 2.0ライセンス
3件のコメント
omlx と比べると性能がどうなのか気になりますね
個人的に antirez/ds4 で deepseek4 を回してみているのですが、速度は ds4 のほうが少し速いようですね。
ds4 は 128GB 専用なので少し微妙ですが、それ以外のモデルでは良さそうです。
最近、HuggingFace の CEO が Qwen3.6 27B で飛行機の中でコーディングしてみたら Opus レベルだと述べたツイートがかなり人気でしたが、これに 3.6 27B を載せてみようと思います。
https://x.com/julien_c/status/2047647522173104145
日本語での性能がどうなのか気になりますね.. 96GBのを使っていますが、有料のLLMより性能は落ちますよね..?
gemini cli 程度までできれば良さそうですね(笑)