Mac miniでのOllamaとGemma 4 26Bモデル設定まとめ（2026年4月時点）

(gist.github.com/greenstevester)

33 ポイント投稿者 GN⁺ 25 일 전 | 1件のコメント | WhatsAppで共有

Apple Silicon搭載Mac miniでOllamaとGemma 4モデルを自動起動し、メモリに常駐させるための構成手順を整理
Homebrew、Launch Agent、環境変数を使うことで、再起動後もモデルを自動ロードでき、8Bモデルは約9.6GBのメモリで安定動作
Ollama v0.19以降はMLXバックエンドとNVFP4フォーマットをサポートし、AppleおよびNVIDIA環境で推論性能が向上
26Bモデルはメモリ使用量が大きく非推奨で、8Bモデルが実用向き
ローカルAPI経由でOpenAI互換Chat Completionリクエストが可能で、Mac mini上で常時稼働するLLMサービス環境の構築に有用

事前準備

**Apple Silicon（M1〜M5）**搭載のMac miniが必要
Gemma 4（8B）モデルの実行には最低16GBユニファイドメモリを推奨
HomebrewがインストールされたmacOS環境が必要

Step 1 — Ollamaのインストール

Homebrew caskを使ってOllama macOSアプリをインストール
```
brew install --cask ollama-app
```
インストール後、/Applications/にOllama.app、/opt/homebrew/bin/ollamaにCLIが配置される
自動更新およびMLXバックエンドを含む

Step 2 — Ollamaの起動と確認

Ollamaアプリを起動
```
open -a Ollama
```
メニューバーにアイコンが表示されたら、サーバーの初期化完了を待つ
実行状態を確認
```
ollama list
```

Step 3 — Gemma 4モデルのダウンロード

モデルをダウンロード
```
ollama pull gemma4
```
約9.6GBをダウンロード後、ollama listで確認
26Bモデルは24GBメモリの大半を占有し、システム応答の低下が発生
- 標準の**8B（Q4_K_M量子化）**モデルの利用を推奨

Step 4 — モデルのテストとGPUアクセラレーション確認

モデルをテスト

ollama run gemma4:latest "Hello, what model are you?"

GPUアクセラレーション状態を確認
```
ollama ps
```
- 例: CPU/GPU比率 14%/86%

Step 5 — 自動起動とモデル常駐の設定

5a. Ollamaアプリの自動起動
- メニューバーのアイコンをクリック → Launch at Loginを有効化
- またはSystem Settings > General > Login Itemsで手動追加
5b. Gemma 4の自動プリロード
- Ollama起動後にモデルを自動ロードし、5分ごとに常駐させるためのLaunch Agentを作成
```
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
...
EOF
```
- エージェントをロード
```
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
```
- 5分ごとに空のプロンプトを送ってモデルをメモリに常駐させる
5c. モデルを無期限で常駐
- デフォルトでは5分間非アクティブだとモデルはアンロードされる
- 無期限常駐を設定
```
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
```
- 再起動後も維持するには~/.zshrcに追加

Step 6 — 設定の検証

Ollamaサーバーの起動を確認
```
ollama list
```
モデルのメモリロード状態を確認
```
ollama ps
```
Launch Agentの登録を確認
```
launchctl list | grep ollama
```

想定される出力例

gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

APIアクセス

ローカルAPIエンドポイント: http://localhost:11434

OpenAI互換Chat Completionの例

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:latest",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

便利なコマンド

コマンド	説明
`ollama list`	ダウンロード済みモデル一覧
`ollama ps`	実行中のモデルとメモリ使用量
`ollama run gemma4:latest`	対話実行
`ollama stop gemma4:latest`	モデルのアンロード
`ollama pull gemma4:latest`	最新版へ更新
`ollama rm gemma4:latest`	モデル削除

Ollamaの削除と自動起動の解除

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Ollama v0.19+ の主な改善点（2026年3月31日）

MLXバックエンド（Apple Silicon）
- Apple MLXフレームワークを自動使用して推論速度が向上
- M5系チップはGPU Neural Acceleratorによる追加高速化をサポート
- M4以前のチップでもMLXベースの一般的な速度向上が適用される
NVFP4フォーマット（NVIDIA）
- NVFP4形式により、精度を維持しつつメモリ帯域幅と保存容量を削減
- NVIDIAモデル最適化ツールで生成されたモデルと互換性あり
キャッシュ改善（コーディングおよびエージェント作業）
- メモリ使用量の削減: 会話間でキャッシュを再利用して効率向上
- インテリジェントチェックポイント: プロンプト処理量を減らし応答速度を向上
- スマートキャッシュ削除: 共通プレフィックスを維持し、分岐作業の効率を改善

追加メモ

Gemma 4（8B）モデルは約9.6GBメモリを使用
- 24GBのMac miniでは約14GBの空き容量を確保可能
26Bモデルは約17GBを使用し、システムスワップと応答低下が発生
- 8Bモデルが安定した性能を提供

参考リンク

1件のコメント

GN⁺ 25 일 전

Hacker News の意見

初めて open weight モデルをリリース直後に使う人は、初期実装と量子化（quantization）には常にバグがあることを知っておくべき
各プロジェクトがリリース日に間に合わせようと急ぐため、結果が正しくないことがある
すでに tokenizer の実装で複数の問題が見つかっており、imatrix を使う量子化も問題になり得る
今後数週間は「ツール呼び出しが動かないせいでモデルがめちゃくちゃだ」といった投稿がたくさん出るはず。実際には 壊れた実装を使っている人たちがそう言っているだけ
cutting-edge モデルを使うなら、推論エンジンを頻繁に更新し、量子化版も変わるたびに再ダウンロードする覚悟が必要
リリース日に間に合わせようとする競争のせいで、「出力トークンが出たらすぐ配布」という進め方になるので、正確性の検証は後回しになりがち
- Linux と 4090 環境でどの inference engine を使うべきか気になる
  ツール呼び出しが動かない問題によく遭遇するが、これがモデルの問題なのか ollama の問題なのかわからない
Mac mini を買ってローカルでモデルを回すべきか悩んでいる
自分は Claude を主に開発作業とホームラボのプロジェクトに使っているが、オープンモデルがその程度まで実用になるのか、それとも月 20 ドルのサブスクを維持したほうがいいのか知りたい
- 小さな作業には悪くないが、Claude のように使おうとするとがっかりする可能性が高い
  ハードウェアを買って自前でホスティングする前に、まず ホスティングサービス で試すのを勧める。モデルの限界を先に体感できる
- 自分は llama 流出 のころからオープンモデルを使ってきた。着実によくなっているし、インターネットなしでローカルに知識の塊を動かせるのはすごい
  ただし期待値は下げたほうがいい。ベンチマークが何と言おうと、Sonnet や Opus とは比較にならない
- OpenRouter のクレジットを 10 ドル分だけ使って自分で試すのが一番いい。自分の経験では、まだかなり物足りないが、ときどき様子を見るのは面白い
- gpt-oss-20B はエージェント性能がかなり良かったが、Claude Code の有料モデルとは比べものにならない。120B はずっと良いという話は聞いた
MacBook Pro M4（36GB） で LM Studio の open code フロントエンドからテストしたが、ツール呼び出しがずっと失敗するので qwen に戻った
似た環境で成功した人がいるか気になる
- ツール呼び出しの失敗は推論エンジンの実装か量子化の問題。数日後に更新が入ってから再挑戦するのを勧める。こういうことはオープンモデルの新規リリースのたびに起きる
- 自分は M5（32GB） で LM Studio 実行時にコンピュータが固まり、再起動が必要だった
  ただし gemma-4-26B-A4B-it-GGUF:Q4_K_M は llama.cpp で問題なく動いた。速度（毎秒 38 トークン）も品質も印象的だった
- 自分も同じ問題に遭った。LM Studio の Q_8 版でコマンドを延々と繰り返す ループモード に入ってしまう
- ほかの人の話では、メインとランタイムの両方を更新する必要があるらしい
- Ubuntu サーバー（charmbracelet/crush）でもツール呼び出しの失敗を確認した
Claude Sonnet 4.5 を置き換えられる オープンモデル を探している
Ollama Cloud や OpenRouter.ai のモデルで代替できるものがあるのか気になる
ベンチマークより、実際の開発者の使用感を聞きたい
- 結論として Sonnet と Opus を置き換えられるモデルはない。GPT Codex 系も依然として素晴らしい
  MiniMax、GLM、Qwen、Kimi などを使ってみたが、複雑な作業ではどれも限界が大きい
- GLM5 と KimiK2.5 は Sonnet にかなり近い代替候補だと感じる
M5 Air（32GB、10 コア） で oMLX ビルドを回した人がいるか気になる。ツール呼び出しまで動くのか知りたい
- v0.3.2 リリースは部分対応の状態。テキスト生成はできるが、特殊トークン処理は未完成
  個人的にはツール呼び出しと <|channel> thinking のサポートを追加するテストを進めている
- 誰かが Gemma 4 E4B を MLX で動かしたと聞いた（リンク）
「Gemma 4 12B」向けの手順なのに途中で 26B に変わるのが妙だ
また ollama ps で「14%/86% CPU/GPU」と表示されるが、これは GPU 性能が悪いという意味ではないのか？
- Mac mini は CPU と GPU がメモリを共有しているので、その比率は無視してよさそう
ローカルで 26B モデルを回せるのは印象的だが、レイテンシ が大きく、チャット以外の用途は厳しい
自分たちは画像生成の処理をローカル推論から API 呼び出しに切り替えた。コールドスタートも生成時間も長すぎた
ローカルは実験には向いているが、定時実行が必要な本番ワークロード には依然として API のほうが有利
ただし プライバシーに敏感なデータ を扱うときは、ローカル構成が非常に有用
なぜこんなに多くの人が Ollama を使うのか気になる。使ってみたが、あまりに単純化されすぎているように感じた
最近は Unsloth Studio のほうが初心者向けのデフォルトとして良さそう
- Ollama は ollama pull の一行だけでモデルを取得できるので、敷居が低い
  Hugging Face でモデル名やバージョンを自分で探さなければならない面倒さがない
  ただし深く入っていくなら、結局はサーバー構成を学ぶことになる
- Ollama は初期に first-mover advantage を持っていた。当時は llama.cpp を自分でビルドすること自体がハードルだった
  今なら LM Studio のほうを勧める。Unsloth Studio は何が違うのか気になる
- なぜみんな LMStudio をもっと話題にしないのかわからない。自分は数か月前に乗り換えたが、ずっと良いと感じている
- Ollama の人気は 宣伝効果 によるもの。Reddit や Discord などで「llama.cpp の簡単なフロントエンド」として広まった
  本当に勝ちたいなら Ollama を消して llama.cpp に直接行くべき
- むしろ逆に聞きたい — Ollama の何が問題なのか？
  16GB GPU でも十分に動くし、ほかのフロントエンドを試すためのバックエンドとして使うにもかなり悪くない
このモデルをローカルコーディングに使えるのか、どんな IDE や harness が互換性を持つのか気になる
- ほとんどの harness は OpenAI 互換 API エンドポイントを指定すればローカルコーディングが可能
  ただし Codex の最新バージョンは llama.cpp と API 互換性 の問題がある
  自分は Pi が好み。ミニマルで拡張性が高い。Claude Code や OpenCode などもよく使われている
- ツール呼び出しのサポートが必要で、多くの 量子化 gguf はそれに対応していない
  自分はこれを解決するために Petsitter というプロキシを作り、推論エンジンと harness の間で機能をエミュレートしている
  GitHub リンク
  Ollama の上に Petsitter を置き、その上にエージェント harness を載せればよい
  Ollama の最新バージョンはすでに "completion", "vision", "audio", "tools", "thinking" をサポートしている
昨夜このモデルを使うには Ollama v0.20 プレリリース を入れる必要があった。なので、今あるガイドが正確なのか疑問に思う

Mac miniでのOllamaとGemma 4 26Bモデル設定まとめ（2026年4月時点）

事前準備

Step 1 — Ollamaのインストール

Step 2 — Ollamaの起動と確認

Step 3 — Gemma 4モデルのダウンロード

Step 4 — モデルのテストとGPUアクセラレーション確認

Step 5 — 自動起動とモデル常駐の設定

5a. Ollamaアプリの自動起動

5b. Gemma 4の自動プリロード

5c. モデルを無期限で常駐

Step 6 — 設定の検証

APIアクセス

便利なコマンド

Ollamaの削除と自動起動の解除

Ollama v0.19+ の主な改善点（2026年3月31日）

MLXバックエンド（Apple Silicon）

NVFP4フォーマット（NVIDIA）

キャッシュ改善（コーディングおよびエージェント作業）

追加メモ

参考リンク

関連記事

1件のコメント

Hacker News の意見