Ollama、Apple SiliconでMLXベース動作に対応
(ollama.com)- Apple MLXフレームワークをベースにしたOllamaのプレビュー版が公開され、Apple Siliconのユニファイドメモリアーキテクチャを活用した性能向上を実現
- M5シリーズチップのGPU Neural Acceleratorにより、TTFT(最初のトークン生成時間)とトークン生成速度の両方が改善
- NVFP4形式のサポートにより、モデル精度を維持しながらメモリ帯域幅とストレージ要件を削減し、NVIDIA Model Optimizerで最適化されたモデルを実行可能
- キャッシュ再利用とスマートキャッシュポリシーによって、会話間のメモリ効率と応答速度を高め、共有プロンプトのキャッシュヒット率を向上
- 今後はさらに多くのモデルとカスタムモデルのインポート機能を追加し、対応アーキテクチャを拡大する計画
Apple SiliconでMLXベース動作するOllamaプレビュー
- AppleのMLXフレームワークをベースにしたOllamaの新しいプレビュー版が公開
- macOSで個人アシスタント(OpenClaw)やコーディングエージェント(Claude Code、OpenCode、Codexなど)をより高速に実行可能
- Apple Siliconのユニファイドメモリアーキテクチャを活用して性能を向上
-
Apple Siliconでの性能向上
- OllamaはAppleのMLX機械学習フレームワーク上で動作し、M5、M5 Pro、M5 MaxチップのGPU Neural Acceleratorを活用して、TTFT(最初のトークン生成時間)とトークン生成速度の両方を高速化
- 2026年3月29日のテストでは、AlibabaのQwen3.5-35B-A3Bモデル(
NVFP4量子化)と従来のOllama実装(Q4_K_M)を比較 - Ollama 0.19は
int4実行時に1851 token/sのプリフィル、134 token/sのデコード性能を記録
-
NVFP4対応
- NVIDIAのNVFP4形式をサポートし、モデル精度の維持とメモリ帯域幅およびストレージ要件の削減を両立
- NVFP4を使用する推論環境と本番環境の間で結果の一貫性を確保
- NVIDIAのModel Optimizerで最適化されたモデルを実行可能
- Ollamaの研究およびハードウェアパートナーの設計・用途に応じて、ほかの精度(precision)も今後追加予定
-
キャッシュシステムの改善
- キャッシュ再利用によって会話間のメモリ使用量を減らし、共有システムプロンプト使用時のキャッシュヒット率を向上
- インテリジェントチェックポイントを導入し、プロンプト処理量を減らして応答速度を向上
- スマートキャッシュ削除ポリシーにより、古いブランチが削除されても共有プレフィックス(prefix)をより長く維持
-
始め方
- Ollama 0.19をダウンロード可能
- 新しいQwen3.5-35B-A3Bモデルをコーディング作業向けにサンプリングパラメータで調整
- 32GB以上のユニファイドメモリを搭載したMacが必要
- 実行例:
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 - OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4 - モデルとの対話:
ollama run qwen3.5:35b-a3b-coding-nvfp4
- Claude Code:
-
今後の計画
- さらに多くのモデルをサポート予定
- 対応アーキテクチャベースのカスタムモデルのインポート機能を追加予定
- 対応アーキテクチャの一覧を継続的に拡大
-
謝辞
- MLXコントリビューターチームによる高速化フレームワークの開発
- NVIDIAチームによるNVFP4量子化、モデル最適化、MLX CUDAサポート、Ollama最適化およびテスト
- GGMLおよびllama.cppチームによるローカルフレームワークとコミュニティの構築
- Alibaba Qwenチームによるオープンソースモデルの提供と協力
1件のコメント
Hacker Newsのコメント
私が作った "apfel" は、Appleのオンデバイスのローカル foundation model向けCLIです。
4kコンテキスト制限や色の描写さえ防ぐ過剰なガードレールはあるものの、外部呼び出しなしでbashスクリプトから直接使える点は本当に強力だと感じます
私も期待していましたが、使ってみると失望が大きかったです。今ではAppleがGeminiのほうへ完全に舵を切ったようで、むしろよかったと思っています
オンデバイス LLMが未来だと思います。
セキュリティが強化され、データセンターに比べて消費電力が少なく、推論需要の問題も緩和できます。ほとんどのユーザーは最先端モデルの性能までは必要としません
データセンターはGPUの**バッチ処理(batch)**と高い稼働率のおかげで、個人PCよりほぼ100倍近く効率的です
ただし、ローカルモデルが簡単な要求を処理し、複雑なものはクラウドに渡すハイブリッドアプローチは有望に見えます
ChatGPTスタイルのインターフェースが内蔵されていて素早いテストに便利です。16GB RAMでもかなりまともなモデルが動きます。
たとえばQwen 3.5 9Bは検閲が強いですが、Uncensored版は逆に自由すぎて、バランスを取るのが興味深いです
ただしSSD帯域幅がボトルネックなので、キャッシュ用RAMは多いほどよいです。応答を待つ余裕があるなら十分に実用的です
最近Qwen 3.5 4Bと27Bを組み合わせてgraphRAGアプリを作りましたが、小規模タスクと質問応答を分けるとかなりうまく動きます。
MLXを使いましたが、エンティティ抽出をバッチ処理するときはずっと速く感じられました
MacでのOllama推論がMLXのおかげで大きく改善されたのはうれしいです。
特に omlx.ai のSSD KVキャッシング機能はゲームチェンジャーでした。
セッションがメモリから消えても再度プリフィルする必要がなく、M5 Maxの高速なプリフィル速度のおかげで生成にもっと時間を使えるようになりました
M2 Max 96GBでqwen 70b 4-bitをllama.cppで動かしています。
日常作業には十分安定しています。Ollamaは以前llama.cppをシェルから呼び出していましたが、今はMLXネイティブ移行でメモリ効率が良くなりそうです。
大きなモデルでgguf経路と比較してみるつもりです
なぜまだOllamaを使っているのか疑問です。
Lemonadeやllama.cppのほうが最適化されていて、使い勝手も似ています
Mac並みの性能でローカルモデルを動かせる非Macの代替があるのか気になります
最新のMLX推論エンジン optiqと比べてどうなのか気になります。
optiqは Turboquantization をサポートしています
llama.cppとMLXの性能比較が気になります
それでも大半のケースでは速度向上のほうが価値があります
16GB RAMだけでMacOS上のローカルLLMとしてClaude Codeを快適に動かせる日を待っています