5 ポイント 投稿者 GN⁺ 29 일 전 | 1件のコメント | WhatsAppで共有
  • Apple MLXフレームワークをベースにしたOllamaのプレビュー版が公開され、Apple Siliconのユニファイドメモリアーキテクチャを活用した性能向上を実現
  • M5シリーズチップのGPU Neural Acceleratorにより、TTFT(最初のトークン生成時間)トークン生成速度の両方が改善
  • NVFP4形式のサポートにより、モデル精度を維持しながらメモリ帯域幅とストレージ要件を削減し、NVIDIA Model Optimizerで最適化されたモデルを実行可能
  • キャッシュ再利用とスマートキャッシュポリシーによって、会話間のメモリ効率と応答速度を高め、共有プロンプトのキャッシュヒット率を向上
  • 今後はさらに多くのモデルとカスタムモデルのインポート機能を追加し、対応アーキテクチャを拡大する計画

Apple SiliconでMLXベース動作するOllamaプレビュー

  • AppleのMLXフレームワークをベースにしたOllamaの新しいプレビュー版が公開
    • macOSで個人アシスタント(OpenClaw)やコーディングエージェント(Claude Code、OpenCode、Codexなど)をより高速に実行可能
    • Apple Siliconのユニファイドメモリアーキテクチャを活用して性能を向上
  • Apple Siliconでの性能向上

    • OllamaはAppleのMLX機械学習フレームワーク上で動作し、M5、M5 Pro、M5 MaxチップのGPU Neural Acceleratorを活用して、TTFT(最初のトークン生成時間)トークン生成速度の両方を高速化
    • 2026年3月29日のテストでは、AlibabaのQwen3.5-35B-A3BモデルNVFP4量子化)と従来のOllama実装(Q4_K_M)を比較
    • Ollama 0.19はint4実行時に1851 token/sのプリフィル134 token/sのデコード性能を記録
  • NVFP4対応

    • NVIDIAのNVFP4形式をサポートし、モデル精度の維持メモリ帯域幅およびストレージ要件の削減を両立
    • NVFP4を使用する推論環境と本番環境の間で結果の一貫性を確保
    • NVIDIAのModel Optimizerで最適化されたモデルを実行可能
    • Ollamaの研究およびハードウェアパートナーの設計・用途に応じて、ほかの精度(precision)も今後追加予定
  • キャッシュシステムの改善

    • キャッシュ再利用によって会話間のメモリ使用量を減らし、共有システムプロンプト使用時のキャッシュヒット率を向上
    • インテリジェントチェックポイントを導入し、プロンプト処理量を減らして応答速度を向上
    • スマートキャッシュ削除ポリシーにより、古いブランチが削除されても共有プレフィックス(prefix)をより長く維持
  • 始め方

    • Ollama 0.19をダウンロード可能
    • 新しいQwen3.5-35B-A3Bモデルをコーディング作業向けにサンプリングパラメータで調整
    • 32GB以上のユニファイドメモリを搭載したMacが必要
    • 実行例:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • モデルとの対話: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • 今後の計画

    • さらに多くのモデルをサポート予定
    • 対応アーキテクチャベースのカスタムモデルのインポート機能を追加予定
    • 対応アーキテクチャの一覧を継続的に拡大
  • 謝辞

    • MLXコントリビューターチームによる高速化フレームワークの開発
    • NVIDIAチームによるNVFP4量子化、モデル最適化、MLX CUDAサポート、Ollama最適化およびテスト
    • GGMLおよびllama.cppチームによるローカルフレームワークとコミュニティの構築
    • Alibaba Qwenチームによるオープンソースモデルの提供と協力

1件のコメント

 
GN⁺ 29 일 전
Hacker Newsのコメント
  • 私が作った "apfel" は、Appleのオンデバイスのローカル foundation model向けCLIです。
    4kコンテキスト制限や色の描写さえ防ぐ過剰なガードレールはあるものの、外部呼び出しなしでbashスクリプトから直接使える点は本当に強力だと感じます

    • 正直、Appleがこの状態で製品を出したことが信じられません。
      私も期待していましたが、使ってみると失望が大きかったです。今ではAppleがGeminiのほうへ完全に舵を切ったようで、むしろよかったと思っています
    • すばらしいプロジェクトです。もしHomebrewでの配布予定もあるのか気になります
  • オンデバイス LLMが未来だと思います。
    セキュリティが強化され、データセンターに比べて消費電力が少なく、推論需要の問題も緩和できます。ほとんどのユーザーは最先端モデルの性能までは必要としません

    • セキュリティ面は高まりますが、供給効率はむしろ悪化する可能性があります。
      データセンターはGPUの**バッチ処理(batch)**と高い稼働率のおかげで、個人PCよりほぼ100倍近く効率的です
    • 企業の立場では、依然として集中化されたデータセンターモデルが合理的かもしれません。
      ただし、ローカルモデルが簡単な要求を処理し、複雑なものはクラウドに渡すハイブリッドアプローチは有望に見えます
    • 最近M4 MBPにllama.cppをインストールしてローカルモデルを試しています。
      ChatGPTスタイルのインターフェースが内蔵されていて素早いテストに便利です。16GB RAMでもかなりまともなモデルが動きます。
      たとえばQwen 3.5 9Bは検閲が強いですが、Uncensored版は逆に自由すぎて、バランスを取るのが興味深いです
    • SSDオフロードでもSOTAモデルをコンシューマー向けPCで動かせます。
      ただしSSD帯域幅がボトルネックなので、キャッシュ用RAMは多いほどよいです。応答を待つ余裕があるなら十分に実用的です
    • 5年間デジタルジャーナリングをしながら、こうした流れを予想していました。
      最近Qwen 3.5 4Bと27Bを組み合わせてgraphRAGアプリを作りましたが、小規模タスクと質問応答を分けるとかなりうまく動きます。
      MLXを使いましたが、エンティティ抽出をバッチ処理するときはずっと速く感じられました
  • MacでのOllama推論がMLXのおかげで大きく改善されたのはうれしいです。
    特に omlx.aiSSD KVキャッシング機能はゲームチェンジャーでした。
    セッションがメモリから消えても再度プリフィルする必要がなく、M5 Maxの高速なプリフィル速度のおかげで生成にもっと時間を使えるようになりました

  • M2 Max 96GBでqwen 70b 4-bitをllama.cppで動かしています。
    日常作業には十分安定しています。Ollamaは以前llama.cppをシェルから呼び出していましたが、今はMLXネイティブ移行でメモリ効率が良くなりそうです。
    大きなモデルでgguf経路と比較してみるつもりです

    • 1秒あたりのトークン生成速度がどれくらいなのか気になります
    • 初期ローンチ時にGGUFモデルの一部を上書きしてしまい、Apple Silicon以外のプラットフォームでダウンロードできなくなっていました。すぐに修正されることを願います
  • なぜまだOllamaを使っているのか疑問です。
    Lemonadeやllama.cppのほうが最適化されていて、使い勝手も似ています

  • Mac並みの性能でローカルモデルを動かせる非Macの代替があるのか気になります

    • 同等レベルではありません。PCでは5090級GPUが必要ですが、コストあたりのトークン効率も電力効率もApple Siliconのほうがはるかに優れています
  • 最新のMLX推論エンジン optiqと比べてどうなのか気になります。
    optiqは Turboquantization をサポートしています

  • llama.cppとMLXの性能比較が気になります

    • MLXのほうが少し速いですが、RAM使用量はやや多いです。
      それでも大半のケースでは速度向上のほうが価値があります
  • 16GB RAMだけでMacOS上のローカルLLMとしてClaude Codeを快適に動かせる日を待っています

    • 現時点では最低32GBが必要だと聞きましたが、実際どれくらい近づいているのか気になります