33 ポイント 投稿者 GN⁺ 25 일 전 | 1件のコメント | WhatsAppで共有
  • Apple Silicon搭載Mac miniOllamaGemma 4モデルを自動起動し、メモリに常駐させるための構成手順を整理
  • HomebrewLaunch Agent環境変数を使うことで、再起動後もモデルを自動ロードでき、8Bモデルは約9.6GBのメモリで安定動作
  • Ollama v0.19以降MLXバックエンドNVFP4フォーマットをサポートし、AppleおよびNVIDIA環境で推論性能が向上
  • 26Bモデルはメモリ使用量が大きく非推奨で、8Bモデルが実用向き
  • ローカルAPI経由でOpenAI互換Chat Completionリクエストが可能で、Mac mini上で常時稼働するLLMサービス環境の構築に有用

事前準備

  • **Apple Silicon(M1〜M5)**搭載のMac miniが必要
  • Gemma 4(8B)モデルの実行には最低16GBユニファイドメモリを推奨
  • HomebrewがインストールされたmacOS環境が必要

Step 1 — Ollamaのインストール

  • Homebrew caskを使ってOllama macOSアプリをインストール

    brew install --cask ollama-app
    
  • インストール後、/Applications/Ollama.app/opt/homebrew/bin/ollamaCLIが配置される

  • 自動更新およびMLXバックエンドを含む

Step 2 — Ollamaの起動と確認

  • Ollamaアプリを起動

    open -a Ollama
    
  • メニューバーにアイコンが表示されたら、サーバーの初期化完了を待つ

  • 実行状態を確認

    ollama list
    

Step 3 — Gemma 4モデルのダウンロード

  • モデルをダウンロード

    ollama pull gemma4
    
  • 9.6GBをダウンロード後、ollama listで確認

  • 26Bモデルは24GBメモリの大半を占有し、システム応答の低下が発生

    • 標準の**8B(Q4_K_M量子化)**モデルの利用を推奨

Step 4 — モデルのテストとGPUアクセラレーション確認

  • モデルをテスト

    ollama run gemma4:latest "Hello, what model are you?"
    
  • GPUアクセラレーション状態を確認

    ollama ps
    
    • 例: CPU/GPU比率 14%/86%

Step 5 — 自動起動とモデル常駐の設定

  • 5a. Ollamaアプリの自動起動

    • メニューバーのアイコンをクリック → Launch at Loginを有効化
    • またはSystem Settings > General > Login Itemsで手動追加
  • 5b. Gemma 4の自動プリロード

    • Ollama起動後にモデルを自動ロードし、5分ごとに常駐させるためのLaunch Agentを作成

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • エージェントをロード

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • 5分ごとに空のプロンプトを送ってモデルをメモリに常駐させる

  • 5c. モデルを無期限で常駐

    • デフォルトでは5分間非アクティブだとモデルはアンロードされる

    • 無期限常駐を設定

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • 再起動後も維持するには~/.zshrcに追加

Step 6 — 設定の検証

  • Ollamaサーバーの起動を確認

    ollama list
    
  • モデルのメモリロード状態を確認

    ollama ps
    
  • Launch Agentの登録を確認

    launchctl list | grep ollama
    
  • 想定される出力例

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

APIアクセス

便利なコマンド

コマンド 説明
ollama list ダウンロード済みモデル一覧
ollama ps 実行中のモデルとメモリ使用量
ollama run gemma4:latest 対話実行
ollama stop gemma4:latest モデルのアンロード
ollama pull gemma4:latest 最新版へ更新
ollama rm gemma4:latest モデル削除

Ollamaの削除と自動起動の解除

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Ollama v0.19+ の主な改善点(2026年3月31日)

  • MLXバックエンド(Apple Silicon)

    • Apple MLXフレームワークを自動使用して推論速度が向上
    • M5系チップはGPU Neural Acceleratorによる追加高速化をサポート
    • M4以前のチップでもMLXベースの一般的な速度向上が適用される
  • NVFP4フォーマット(NVIDIA)

    • NVFP4形式により、精度を維持しつつメモリ帯域幅と保存容量を削減
    • NVIDIAモデル最適化ツールで生成されたモデルと互換性あり
  • キャッシュ改善(コーディングおよびエージェント作業)

    • メモリ使用量の削減: 会話間でキャッシュを再利用して効率向上
    • インテリジェントチェックポイント: プロンプト処理量を減らし応答速度を向上
    • スマートキャッシュ削除: 共通プレフィックスを維持し、分岐作業の効率を改善

追加メモ

  • Gemma 4(8B)モデルは約9.6GBメモリを使用
    • 24GBのMac miniでは約14GBの空き容量を確保可能
  • 26Bモデルは約17GBを使用し、システムスワップと応答低下が発生
    • 8Bモデルが安定した性能を提供

参考リンク

1件のコメント

 
GN⁺ 25 일 전
Hacker News の意見
  • 初めて open weight モデルをリリース直後に使う人は、初期実装と量子化(quantization)には常にバグがあることを知っておくべき
    各プロジェクトがリリース日に間に合わせようと急ぐため、結果が正しくないことがある
    すでに tokenizer の実装で複数の問題が見つかっており、imatrix を使う量子化も問題になり得る
    今後数週間は「ツール呼び出しが動かないせいでモデルがめちゃくちゃだ」といった投稿がたくさん出るはず。実際には 壊れた実装を使っている人たちがそう言っているだけ
    cutting-edge モデルを使うなら、推論エンジンを頻繁に更新し、量子化版も変わるたびに再ダウンロードする覚悟が必要
    リリース日に間に合わせようとする競争のせいで、「出力トークンが出たらすぐ配布」という進め方になるので、正確性の検証は後回しになりがち

    • Linux と 4090 環境でどの inference engine を使うべきか気になる
      ツール呼び出しが動かない問題によく遭遇するが、これがモデルの問題なのか ollama の問題なのかわからない
  • Mac mini を買ってローカルでモデルを回すべきか悩んでいる
    自分は Claude を主に開発作業とホームラボのプロジェクトに使っているが、オープンモデルがその程度まで実用になるのか、それとも月 20 ドルのサブスクを維持したほうがいいのか知りたい

    • 小さな作業には悪くないが、Claude のように使おうとするとがっかりする可能性が高い
      ハードウェアを買って自前でホスティングする前に、まず ホスティングサービス で試すのを勧める。モデルの限界を先に体感できる
    • 自分は llama 流出 のころからオープンモデルを使ってきた。着実によくなっているし、インターネットなしでローカルに知識の塊を動かせるのはすごい
      ただし期待値は下げたほうがいい。ベンチマークが何と言おうと、Sonnet や Opus とは比較にならない
    • OpenRouter のクレジットを 10 ドル分だけ使って自分で試すのが一番いい。自分の経験では、まだかなり物足りないが、ときどき様子を見るのは面白い
    • gpt-oss-20B はエージェント性能がかなり良かったが、Claude Code の有料モデルとは比べものにならない。120B はずっと良いという話は聞いた
  • MacBook Pro M4(36GB) で LM Studio の open code フロントエンドからテストしたが、ツール呼び出しがずっと失敗するので qwen に戻った
    似た環境で成功した人がいるか気になる

    • ツール呼び出しの失敗は推論エンジンの実装か量子化の問題。数日後に更新が入ってから再挑戦するのを勧める。こういうことはオープンモデルの新規リリースのたびに起きる
    • 自分は M5(32GB) で LM Studio 実行時にコンピュータが固まり、再起動が必要だった
      ただし gemma-4-26B-A4B-it-GGUF:Q4_K_M は llama.cpp で問題なく動いた。速度(毎秒 38 トークン)も品質も印象的だった
    • 自分も同じ問題に遭った。LM Studio の Q_8 版でコマンドを延々と繰り返す ループモード に入ってしまう
    • ほかの人の話では、メインとランタイムの両方を更新する必要があるらしい
    • Ubuntu サーバー(charmbracelet/crush)でもツール呼び出しの失敗を確認した
  • Claude Sonnet 4.5 を置き換えられる オープンモデル を探している
    Ollama Cloud や OpenRouter.ai のモデルで代替できるものがあるのか気になる
    ベンチマークより、実際の開発者の使用感を聞きたい

    • 結論として Sonnet と Opus を置き換えられるモデルはない。GPT Codex 系も依然として素晴らしい
      MiniMax、GLM、Qwen、Kimi などを使ってみたが、複雑な作業ではどれも限界が大きい
    • GLM5KimiK2.5 は Sonnet にかなり近い代替候補だと感じる
  • M5 Air(32GB、10 コア) で oMLX ビルドを回した人がいるか気になる。ツール呼び出しまで動くのか知りたい

    • v0.3.2 リリース は部分対応の状態。テキスト生成はできるが、特殊トークン処理は未完成
      個人的にはツール呼び出しと <|channel> thinking のサポートを追加するテストを進めている
    • 誰かが Gemma 4 E4B を MLX で動かしたと聞いた(リンク
  • 「Gemma 4 12B」向けの手順なのに途中で 26B に変わるのが妙だ
    また ollama ps で「14%/86% CPU/GPU」と表示されるが、これは GPU 性能が悪いという意味ではないのか?

    • Mac mini は CPU と GPU がメモリを共有しているので、その比率は無視してよさそう
  • ローカルで 26B モデルを回せるのは印象的だが、レイテンシ が大きく、チャット以外の用途は厳しい
    自分たちは画像生成の処理をローカル推論から API 呼び出しに切り替えた。コールドスタートも生成時間も長すぎた
    ローカルは実験には向いているが、定時実行が必要な本番ワークロード には依然として API のほうが有利
    ただし プライバシーに敏感なデータ を扱うときは、ローカル構成が非常に有用

  • なぜこんなに多くの人が Ollama を使うのか気になる。使ってみたが、あまりに単純化されすぎているように感じた
    最近は Unsloth Studio のほうが初心者向けのデフォルトとして良さそう

    • Ollama は ollama pull の一行だけでモデルを取得できるので、敷居が低い
      Hugging Face でモデル名やバージョンを自分で探さなければならない面倒さがない
      ただし深く入っていくなら、結局はサーバー構成を学ぶことになる
    • Ollama は初期に first-mover advantage を持っていた。当時は llama.cpp を自分でビルドすること自体がハードルだった
      今なら LM Studio のほうを勧める。Unsloth Studio は何が違うのか気になる
    • なぜみんな LMStudio をもっと話題にしないのかわからない。自分は数か月前に乗り換えたが、ずっと良いと感じている
    • Ollama の人気は 宣伝効果 によるもの。Reddit や Discord などで「llama.cpp の簡単なフロントエンド」として広まった
      本当に勝ちたいなら Ollama を消して llama.cpp に直接行くべき
    • むしろ逆に聞きたい — Ollama の何が問題なのか?
      16GB GPU でも十分に動くし、ほかのフロントエンドを試すためのバックエンドとして使うにもかなり悪くない
  • このモデルをローカルコーディングに使えるのか、どんな IDE や harness が互換性を持つのか気になる

    • ほとんどの harness は OpenAI 互換 API エンドポイントを指定すればローカルコーディングが可能
      ただし Codex の最新バージョンは llama.cpp と API 互換性 の問題がある
      自分は Pi が好み。ミニマルで拡張性が高い。Claude Code や OpenCode などもよく使われている
    • ツール呼び出しのサポートが必要で、多くの 量子化 gguf はそれに対応していない
      自分はこれを解決するために Petsitter というプロキシを作り、推論エンジンと harness の間で機能をエミュレートしている
      GitHub リンク
      Ollama の上に Petsitter を置き、その上にエージェント harness を載せればよい
      Ollama の最新バージョンはすでに "completion", "vision", "audio", "tools", "thinking" をサポートしている
  • 昨夜このモデルを使うには Ollama v0.20 プレリリース を入れる必要があった。なので、今あるガイドが正確なのか疑問に思う