13 ポイント 投稿者 xguru 7 시간 전 | 3件のコメント | WhatsAppで共有
  • Apple Silicon MacでローカルAIモデルを実行する推論エンジンで、AppleのMLXフレームワークをベースにネイティブのMetalコンピュートカーネルを活用
  • Ollama比で最大4.2倍高速な推論速度 - Phi-4 Mini 14Bで180 tok/s(Ollama 56 tok/s比3.2倍)、Qwen3.5-9Bで108 tok/s(Ollama 41 tok/s比2.6倍)
  • キャッシュ済みの状態でTTFT 0.08秒(Kimi-Linear-48B基準)、大半のモデルで0.1〜0.3秒水準
  • 17種類のツール呼び出しパーサーを内蔵し、モデル名ベースで自動検出 — 4bit量子化モデルが壊れたツール呼び出しをテキストで出力しても、自動で構造化形式に復元
  • 16GB MacBook Air(Qwen3.5-4B, 160 tok/s)から256GB Mac Studio Ultra(DeepSeek V4 Flash 158B, 31 tok/s, 1Mコンテキスト)まで、RAM別の最適モデルマッピングを提供
    • 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → RAM使用量2.4GB、160 tok/s、チャット・コーディング・ツール呼び出しが可能
    • 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB、108 tok/s、汎用モデル
    • 32GB Mac Mini/Studio: Qwen3.5-27B 4bit(15.3GB, 39 tok/s)、Nemotron-Nano 30B 4bit(18GB, 141 tok/s, ツール呼び出し100%)、Qwen3.6-35B-A3B 4bit(20GB, 95 tok/s, 256 MoE expert, 262Kコンテキスト
    • 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB、83 tok/s、賢さと速さの最適なバランス
    • 96GB+: Qwen3.5-122B mxfp4 → 65GB、57 tok/s、フロンティア級の知能
    • 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB、56 tok/s、day-0フロンティアMoE
    • 192~256GB: Qwen3.5-122B 8bit(130GB, 44 tok/s)またはDeepSeek V4 Flash 8-bit(136GB, 31 tok/s, 1Mコンテキスト
    • 4bitはメモリ節約向け(大半で推奨)、8bitは高品質推論向け、mxfp4は高品質な4bitフォーマット
  • chain-of-thoughtモデルの推論過程を別のreasoning_contentフィールドに分離する推論分離機能 - Qwen3、DeepSeek-R1、MiniMax、GPT-OSSフォーマットをサポート
  • 標準Transformer向けのKVキャッシュトリミングと、Qwen3.5ハイブリッドアーキテクチャ向けのDeltaNet状態スナップショット(~0.1msで復元)により、マルチターン対話のTTFTを2〜5倍改善し、追加フラグなしで常時有効
  • ローカルのプリフィルが遅い大規模コンテキスト要求をGPT-5やClaudeなどのクラウドLLMへ自動切り替えするスマートクラウドラウティングをサポート
  • OpenAI APIのドロップイン置き換え — Cursor、Claude Code、Aider、LangChain、PydanticAI、smolagents、Hermes Agent、Open WebUIなど、OpenAI互換アプリならlocalhost:8000/v1ですぐに連携可能
  • Vision(Gemma 4, Qwen-VL)、Audio(TTS/STT)、Embeddings、Gradio Chat UI、スキーマ制約付きJSON生成など、マルチモーダルおよびオプション拡張をサポート
  • TurboQuant V-cache(メモリ86%削減)、KVキャッシュ量子化、プリフィルチャンク化、tool logits biasなど、多様な最適化手法を内蔵
  • モデル+エージェントハーネス互換性を測定する**MHI(Model-Harness Index)**を提供 — Qwopus 27BがMHI 92で最高スコア
  • Speculative Decode(1.5~2.3倍)、EAGLE-3(3~6.5倍)、ReDrafter(1.4~1.5倍)など、追加の高速化手法がロードマップに含まれる
  • Apache 2.0ライセンス

3件のコメント

 
parkindani 3 시간 전

omlx と比べると性能がどうなのか気になりますね

 
xguru 6 시간 전

個人的に antirez/ds4 で deepseek4 を回してみているのですが、速度は ds4 のほうが少し速いようですね。

ds4 は 128GB 専用なので少し微妙ですが、それ以外のモデルでは良さそうです。

最近、HuggingFace の CEO が Qwen3.6 27B で飛行機の中でコーディングしてみたら Opus レベルだと述べたツイートがかなり人気でしたが、これに 3.6 27B を載せてみようと思います。
https://x.com/julien_c/status/2047647522173104145

 
yangeok 7 시간 전

日本語での性能がどうなのか気になりますね.. 96GBのを使っていますが、有料のLLMより性能は落ちますよね..?

gemini cli 程度までできれば良さそうですね(笑)