Mac miniでのOllamaとGemma 4 26Bモデル設定まとめ(2026年4月時点)
(gist.github.com/greenstevester)- Apple Silicon搭載Mac miniでOllamaとGemma 4モデルを自動起動し、メモリに常駐させるための構成手順を整理
- Homebrew、Launch Agent、環境変数を使うことで、再起動後もモデルを自動ロードでき、8Bモデルは約9.6GBのメモリで安定動作
- Ollama v0.19以降はMLXバックエンドとNVFP4フォーマットをサポートし、AppleおよびNVIDIA環境で推論性能が向上
- 26Bモデルはメモリ使用量が大きく非推奨で、8Bモデルが実用向き
- ローカルAPI経由でOpenAI互換Chat Completionリクエストが可能で、Mac mini上で常時稼働するLLMサービス環境の構築に有用
事前準備
- **Apple Silicon(M1〜M5)**搭載のMac miniが必要
- Gemma 4(8B)モデルの実行には最低16GBユニファイドメモリを推奨
- HomebrewがインストールされたmacOS環境が必要
Step 1 — Ollamaのインストール
-
Homebrew caskを使ってOllama macOSアプリをインストール
brew install --cask ollama-app -
インストール後、
/Applications/にOllama.app、/opt/homebrew/bin/ollamaにCLIが配置される -
自動更新およびMLXバックエンドを含む
Step 2 — Ollamaの起動と確認
-
Ollamaアプリを起動
open -a Ollama -
メニューバーにアイコンが表示されたら、サーバーの初期化完了を待つ
-
実行状態を確認
ollama list
Step 3 — Gemma 4モデルのダウンロード
-
モデルをダウンロード
ollama pull gemma4 -
約9.6GBをダウンロード後、
ollama listで確認 -
26Bモデルは24GBメモリの大半を占有し、システム応答の低下が発生
- 標準の**8B(Q4_K_M量子化)**モデルの利用を推奨
Step 4 — モデルのテストとGPUアクセラレーション確認
-
モデルをテスト
ollama run gemma4:latest "Hello, what model are you?" -
GPUアクセラレーション状態を確認
ollama ps- 例: CPU/GPU比率 14%/86%
Step 5 — 自動起動とモデル常駐の設定
-
5a. Ollamaアプリの自動起動
- メニューバーのアイコンをクリック → Launch at Loginを有効化
- またはSystem Settings > General > Login Itemsで手動追加
-
5b. Gemma 4の自動プリロード
-
Ollama起動後にモデルを自動ロードし、5分ごとに常駐させるためのLaunch Agentを作成
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF -
エージェントをロード
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist -
5分ごとに空のプロンプトを送ってモデルをメモリに常駐させる
-
-
5c. モデルを無期限で常駐
-
デフォルトでは5分間非アクティブだとモデルはアンロードされる
-
無期限常駐を設定
launchctl setenv OLLAMA_KEEP_ALIVE "-1" -
再起動後も維持するには
~/.zshrcに追加
-
Step 6 — 設定の検証
-
Ollamaサーバーの起動を確認
ollama list -
モデルのメモリロード状態を確認
ollama ps -
Launch Agentの登録を確認
launchctl list | grep ollama -
想定される出力例
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
APIアクセス
-
ローカルAPIエンドポイント:
http://localhost:11434 -
OpenAI互換Chat Completionの例
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
便利なコマンド
| コマンド | 説明 |
|---|---|
ollama list |
ダウンロード済みモデル一覧 |
ollama ps |
実行中のモデルとメモリ使用量 |
ollama run gemma4:latest |
対話実行 |
ollama stop gemma4:latest |
モデルのアンロード |
ollama pull gemma4:latest |
最新版へ更新 |
ollama rm gemma4:latest |
モデル削除 |
Ollamaの削除と自動起動の解除
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
Ollama v0.19+ の主な改善点(2026年3月31日)
-
MLXバックエンド(Apple Silicon)
- Apple MLXフレームワークを自動使用して推論速度が向上
- M5系チップはGPU Neural Acceleratorによる追加高速化をサポート
- M4以前のチップでもMLXベースの一般的な速度向上が適用される
-
NVFP4フォーマット(NVIDIA)
- NVFP4形式により、精度を維持しつつメモリ帯域幅と保存容量を削減
- NVIDIAモデル最適化ツールで生成されたモデルと互換性あり
-
キャッシュ改善(コーディングおよびエージェント作業)
- メモリ使用量の削減: 会話間でキャッシュを再利用して効率向上
- インテリジェントチェックポイント: プロンプト処理量を減らし応答速度を向上
- スマートキャッシュ削除: 共通プレフィックスを維持し、分岐作業の効率を改善
追加メモ
- Gemma 4(8B)モデルは約9.6GBメモリを使用
- 24GBのMac miniでは約14GBの空き容量を確保可能
- 26Bモデルは約17GBを使用し、システムスワップと応答低下が発生
- 8Bモデルが安定した性能を提供
1件のコメント
Hacker News の意見
初めて open weight モデルをリリース直後に使う人は、初期実装と量子化(quantization)には常にバグがあることを知っておくべき
各プロジェクトがリリース日に間に合わせようと急ぐため、結果が正しくないことがある
すでに tokenizer の実装で複数の問題が見つかっており、imatrix を使う量子化も問題になり得る
今後数週間は「ツール呼び出しが動かないせいでモデルがめちゃくちゃだ」といった投稿がたくさん出るはず。実際には 壊れた実装を使っている人たちがそう言っているだけ
cutting-edge モデルを使うなら、推論エンジンを頻繁に更新し、量子化版も変わるたびに再ダウンロードする覚悟が必要
リリース日に間に合わせようとする競争のせいで、「出力トークンが出たらすぐ配布」という進め方になるので、正確性の検証は後回しになりがち
ツール呼び出しが動かない問題によく遭遇するが、これがモデルの問題なのか ollama の問題なのかわからない
Mac mini を買ってローカルでモデルを回すべきか悩んでいる
自分は Claude を主に開発作業とホームラボのプロジェクトに使っているが、オープンモデルがその程度まで実用になるのか、それとも月 20 ドルのサブスクを維持したほうがいいのか知りたい
ハードウェアを買って自前でホスティングする前に、まず ホスティングサービス で試すのを勧める。モデルの限界を先に体感できる
ただし期待値は下げたほうがいい。ベンチマークが何と言おうと、Sonnet や Opus とは比較にならない
MacBook Pro M4(36GB) で LM Studio の open code フロントエンドからテストしたが、ツール呼び出しがずっと失敗するので qwen に戻った
似た環境で成功した人がいるか気になる
ただし gemma-4-26B-A4B-it-GGUF:Q4_K_M は llama.cpp で問題なく動いた。速度(毎秒 38 トークン)も品質も印象的だった
Claude Sonnet 4.5 を置き換えられる オープンモデル を探している
Ollama Cloud や OpenRouter.ai のモデルで代替できるものがあるのか気になる
ベンチマークより、実際の開発者の使用感を聞きたい
MiniMax、GLM、Qwen、Kimi などを使ってみたが、複雑な作業ではどれも限界が大きい
M5 Air(32GB、10 コア) で oMLX ビルドを回した人がいるか気になる。ツール呼び出しまで動くのか知りたい
個人的にはツール呼び出しと
<|channel>thinking のサポートを追加するテストを進めている「Gemma 4 12B」向けの手順なのに途中で 26B に変わるのが妙だ
また ollama ps で「14%/86% CPU/GPU」と表示されるが、これは GPU 性能が悪いという意味ではないのか?
ローカルで 26B モデルを回せるのは印象的だが、レイテンシ が大きく、チャット以外の用途は厳しい
自分たちは画像生成の処理をローカル推論から API 呼び出しに切り替えた。コールドスタートも生成時間も長すぎた
ローカルは実験には向いているが、定時実行が必要な本番ワークロード には依然として API のほうが有利
ただし プライバシーに敏感なデータ を扱うときは、ローカル構成が非常に有用
なぜこんなに多くの人が Ollama を使うのか気になる。使ってみたが、あまりに単純化されすぎているように感じた
最近は Unsloth Studio のほうが初心者向けのデフォルトとして良さそう
ollama pullの一行だけでモデルを取得できるので、敷居が低いHugging Face でモデル名やバージョンを自分で探さなければならない面倒さがない
ただし深く入っていくなら、結局はサーバー構成を学ぶことになる
今なら LM Studio のほうを勧める。Unsloth Studio は何が違うのか気になる
本当に勝ちたいなら Ollama を消して llama.cpp に直接行くべき
16GB GPU でも十分に動くし、ほかのフロントエンドを試すためのバックエンドとして使うにもかなり悪くない
このモデルをローカルコーディングに使えるのか、どんな IDE や harness が互換性を持つのか気になる
ただし Codex の最新バージョンは llama.cpp と API 互換性 の問題がある
自分は Pi が好み。ミニマルで拡張性が高い。Claude Code や OpenCode などもよく使われている
自分はこれを解決するために Petsitter というプロキシを作り、推論エンジンと harness の間で機能をエミュレートしている
GitHub リンク
Ollama の上に Petsitter を置き、その上にエージェント harness を載せればよい
Ollama の最新バージョンはすでに
"completion", "vision", "audio", "tools", "thinking"をサポートしている昨夜このモデルを使うには Ollama v0.20 プレリリース を入れる必要があった。なので、今あるガイドが正確なのか疑問に思う