- ローカルLLMをmacOSで実行する方法と、おすすめツールの説明
- ローカルLLMは個人のコンピュータで動作する人工知能言語モデルで、データのプライバシーを保ちながら実験的な技術探求を可能にする
- さまざまなオープンウェイトモデルを活用してテキスト要約や個人的な記録用途に役立ち、創造性や思考能力はない
- macOSで実行できる主なツールはllama.cppとLM Studioの2つで、それぞれオープンソースと使いやすいUIを提供する
- モデル選択ではメモリ容量、ランタイム、量子化レベル、ビジョン機能と推論能力を考慮する必要がある
- ローカルLLMの実行はプライバシー保護と技術的好奇心の充足に役立ち、小規模モデルは大規模モデルの代替として実験的価値を提供する
序論: LLMに対する個人的な見方と使い方
- この記事は、macOSでローカルLLM(Local Large Language Model) を直接インストールして試す体験を扱う
- 筆者はLLMに懐疑的だが、新しい技術を試すのが好きなので、実際にダウンロードして使ってみた
- LLMの機能を高度なオートコンプリート程度と見る見方と、まるで感情や権利を持つ存在のように扱う主張の中間に位置する
- 実際には次の単語予測に基づいているが、複雑な非意図的行動(創発的能力) が現れる
- 創造性や自己意識はなく、将来さらに進歩した機械が現れる可能性はあるが、現在の技術水準はそこに達していない
LLMの主な活用例
- テキスト要約、インターネット情報の提供、簡単な医療情報の提示などで有用性が高い
- 筆者の場合はブレインダンプ(考えの吐き出し) 用として使っており、話し相手が必要なときに役立つ
- 回答そのものには集中せず、単に記録用としてのみ活用している
- 人工知能に過度に感情移入(擬人化)しないことが重要
- システムプロンプトを使ってモデルの応答行動を調整できるが、あまり気にしないほうである
生産性と信頼性への懸念
- LLMが「生産性」を向上させるという主張には同意しない
- 回答の信頼性の問題(でたらめ、ハルシネーション)があるため、必ずファクトチェックが必要
- 簡単に検証しにくい質問は避けることが情報汚染の防止に役立つ
ローカルLLMを使う理由
- 技術実験の楽しさと、コンピュータがローカルで自然言語に反応する体験の面白さを感じる
- 自分のコンピュータだけで動作するとき、プライバシーと機密情報の保護の面で利点がある
- AIサービス企業がユーザーデータを別途保存し、学習に活用する場合が多い
- 商用AI企業への不信、倫理的問題、過剰な宣伝、環境破壊、著作権侵害などの問題から、ローカルのオープンソースモデルを好む
macOSでLLMを実行する方法
- macOSで実行できる主なツールはllama.cppとLM Studio
-
- Georgi Gerganovが開発
- 多様で詳細な設定オプションを提供し、複数のプラットフォームをサポート、モデルのダウンロードと簡単なWeb UIも提供
- 例:
llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF コマンドで推奨モデルのGemma 3 4B QATを実行可能
- ブラウザで
http://127.0.0.1:8080にアクセスするとChatGPTに似た最小限のUIが表示され、実験に適している
-
2. LM Studio (クローズドソース、簡単に使える)
- 直感的で高機能なUIを提供し、モデルの探索/ダウンロード/会話管理機能や、モデルが実行可能かどうかの案内も含む
- 大きすぎるモデルを読み込んでシステムが落ちるのを防ぐガードレール(安全装置)を内蔵
- macOSで
llama.cppとAppleのMLXエンジンという2つのランタイムの利用をサポート
- 主な活用のコツ:
- 会話の途中でモデルを切り替え可能
- 会話ブランチを作成してさまざまな実験が可能
- ユーザーメッセージとアシスタントメッセージの両方を編集可能
- システムプロンプトのプリセット作成と再利用をサポート
- 会話コンテキストウィンドウが超過したときの処理方法を設定可能(前後のメッセージを保持するなどの基本設定を提供)
良いLLMモデルの選び方
- モデルサイズ: ディスク容量よりメモリ(RAM) が主な制約条件
- 16GB RAM環境では12GB以下のモデルを推奨、超えるとシステムが不安定になる可能性がある
- 大きいモデルほど遅くなり、メモリ不足時にはシステム全体が不安定になる可能性がある
- ランタイムの選択:
llama.cppおよびLM Studioの基本ランタイムはGGUF形式モデルが必要
- LM StudioのMLXランタイムはMLX専用モデルが必要
- GGUFモデルはさまざまなプラットフォームで安定しており、設定オプションも豊富
- MLXモデルはApple Siliconでやや高速な性能を提供する
- 量子化 (Quantization): モデル性能とメモリ効率のバランス
- 多くのLLMは16ビット精度で学習されている
- 4ビットなど、より低いビットに量子化しても、一定水準までは性能低下が小さい; 一般にはQ4が適している
- カーネルごとの複雑な量子化表記(Q4_K_Mなど)が存在するが、初心者にはデフォルト値の使用を推奨
- ビジョンモデル: 画像処理が可能なモデル
- 一部のモデルは画像入力をトークナイズして分析し(テキスト読取、物体認識、感情/スタイル推定など)
- 単純なOCRは可能だが、専用OCRツールより信頼性は低い
- 推論能力: 一部モデルは回答生成前に思考過程を含む
- 一部モデルは回答生成前の推論過程を追加し、一般モデルに比べて「考える」機能が強化されている
- 小規模の推論特化モデルが中〜大規模の一般モデルを上回ることがある(ベンチマークにも反映)
- 推論型は回答までに時間がかかり、コンテキストウィンドウをより速く消費する
- ツール使用: 外部ツール呼び出しが可能
- ツール呼び出しトークンを使い、システムプロンプトで指定されたMCP(ツールサーバー)の機能を活用できる
- LM Studioではツールの追加と管理が簡単で、ツール呼び出しにはセキュリティ脅威(データ流出攻撃の可能性) があるため、デフォルトでユーザー確認が必要
- 基本的にJavaScript MCP(Denoベース) を搭載し、複雑な演算/データ分析/ランダム生成などを自動化できる
- Web検索MCPを追加するとリアルタイムの検索結果を反映でき、世界の知識に制約のあるモデルを拡張して使える
- 長期記憶が必要な場合はObsidian向けMCPなど、さまざまな拡張サーバーを活用できる
- ただし、MCPを導入するとコンテキストを素早く埋めるため、本当に必要な場合だけ有効化する必要がある
- Agents
- エージェント(Agent)は反復的にツールを使うモデル構造を意味する
- 推論とツール使用能力を兼ね備えたモデルが一般にエージェントとして分類される
- 完璧ではないが、挑戦的で興味深い概念を提供する
推奨モデルと活用のコツ
- LM Studioの内蔵UIでは、ランタイム、量子化、モデル特性、サイズなどを簡単に比較・探索できる
llama.cppの場合はHugging FaceのGGUFモデルセクションを活用できる
- すべての能力を満たすモデルは多くないため、さまざまなモデルをダウンロードして試すことを推奨
- 推奨モデル一覧:
- Gemma 3 12B QAT: ビジョン性能が強く、高速で優れたテキスト生成
- Qwen3 4B 2507 Thinking: 小型で速度/品質に優れ、推論型・一般型の2種類がある
- GPT-OSS 20B: 現時点で最高性能、3段階推論をサポート、遅いが能力は非常に高い
- Phi-4 (14B) : 以前は好んでいたモデルで、今でも推論版と一般版が存在する
まとめと活用のヒント
- 小型モデルは最新の大規模モデルを完全には置き換えられなくても、ローカル実行の有用性は明らか
- ローカルテストはアルゴリズムの動作理解や弱点を補う力の向上に役立つ
- LM Studioはコンテキストウィンドウの使用量をリアルタイムで表示する
- コンテキストが埋まり切る直前に会話内容を要約させると、重要情報の維持に効果的
- ローカルLLMは個人向けのコンピュータ内のデジタルジーニー(Genie) のような存在と考え、楽しい実験体験を期待している
3件のコメント
ollamaでqwen3:4bを使うのがおすすめですOllama の話がないですね
Hacker Newsの意見
自分も、魔法みたいに10GBほどのファイルをダウンロードするだけで、ノートPC上でテキスト要約、質問応答、さらには簡単な推論までできるのが不思議だと思う。重要なのはモデルサイズとRAMのバランス。16GBマシンでは12B〜20Bあたりが限界に近い。ただし、こうしたモデルは実際にはAppleのNeural Engine(ANE)を使っておらず、GPU上でMetal経由で動いている。Core MLはカスタムランタイムにはまだそれほど向いておらず、AppleもANEへの低レベルな開発者アクセスを提供していない。加えて、メモリ帯域幅やSRAMに関する問題もある。いつかAppleがCore ML最適化によってtransformerワークロードをANEへうまくマッピングしてくれることを願っている
Appleには新しいCEOが必要だとずっと感じてきた。もし自分がAppleを率いていたなら、ローカルLLMを積極的に導入し、Nvidia向けに設計されたモデルも最適化できる推論エンジンを作っていただろう。サーバー級のApple Siliconプロセッサを販売し、GPU仕様も公開して、誰もが直接活用できるようにしていたはずだ。Appleは安全すぎる道ばかり選んでいるように見える。Tim CookはCOOとしては素晴らしいが、いまだにそのやり方で会社を運営している。今必要なのはCOOではなくイノベーターだと思う
リバースエンジニアリングの情報(Asahi LinuxでANEに直接アクセスできる事例など)を見ると、M1/M2のApple Neural EngineはINT8またはFP16値のstatically scheduled MADDにしか最適化されていない。最近のローカルモデルはより強く量子化されているので、モデル値がFP16/INT8にパディングされるとメモリ帯域幅が無駄になる。一方でGPUは入力を高速にデクオンタイズし、レジスタにパディングしてから行列ユニットへ供給できるため、メモリ帯域幅を効率よく使える。それでもNPU/ANEはプロンプト前処理などには有用かもしれない。この部分はトークン生成より演算処理に制約があるため、消費電力を抑え、冷却制限も回避できる。追加情報: Whisper.cpp Pull Request, 昔のANE情報, tinygradの詳細なまとめ。M3/M4はまだAsahiのサポートがないため、今後どうなるかは未知数。M3シリーズもM2と性能差は大きくないように見える
ANEでtransformerワークロードをうまく動かしたいなら、モデルを変換できるツールはすでにある。<br>TensorFlow、PyTorchなどで作ったモデルをCore MLへ変換する方法: CoreML Tools Docs
自分も、Apple Neural EngineがローカルLLMと連携していない点は興味深いと思った。Apple、AMD、Intelはいずれもllama.cppでNPUサポートをまともに実現できていないようだ。なぜなのか気になる
GLM 4.5 Airとgpt-oss-120bはどちらもかなり実用的に動かせている。特にGPT OSSはレイテンシが悪くない。128GB M4 MacBookでの話だ。今は非常に強力だが、すぐに普通のものになるだろう。こうしたモデルはすでに最先端モデルに近づいてきている
これまではローカルLLMがChatGPT(2022年初期版)のようにあまりに制限されていて、本当に使える用途を見つけられなかった。コミュニティでどんな有用なユースケースがあったのか気になる。例として、Sun TzuインタビューをローカルLLMがでっち上げたという話もあったが、そういう限界が気にかかる。だから実際にどこで使えるのか知りたい
いろいろなLLMを使ってみたが、48GB以上のMacBookではGemma3:27bが個人日記や機密データの分析において最高クラスだ。中国製モデルの人生相談はあまりにコミカルだ。たとえばDeepseekに悩みを相談したら、儒教式の人生設計を出してきた。Gemmaのほうがずっと西洋的だ
ローカルLLMは主に事実ベースではない自動化に多く使っている。たとえば分類、要約、検索、スペルチェックなど。自分の使いたい言語や日常概念を理解してくれれば十分で、人類の歴史やプログラミング言語、健康のような膨大な知識までは必須ではない。ユーザーが直接LLMにプロンプトしなくても、OSやアプリが必要なときに自動でLLMを使うようにできる
Obsidianに自分の感情、考え、やったことなどを全部記録している。こうした内密なノートをクラウドに上げたくないので、chromeDBで管理しつつLLMと対話している。最近は拒否応答が除去されたabliteratedモデルも使っている(transformersの拒否除去)。仕事でも使っている。金融データ作業を自動化するmcpを作ったが、ローカルでモデルを動かしているので情報漏えいの心配がない
インターネットが不安定だったり頻繁に切れたりする環境でも使える。最先端ではないLLMでも、ないよりはずっといい。たとえば嵐でネットが切れたとき、必要な安全指針をローカルLLMからすぐ得られる
ローカルモデルはアプリのプロトタイプ作成や開発初期に使っている。<br>第一に、開発コストが確実に下がる。第二に、性能の限界があるからこそコンポジションをより慎重に組み合わせる必要があり、それが役立つ。ある程度使えるローカルモデル(gpt-oss、qwen3など)でワークフローを設計しておけば、後でクラウドモデル(gpt-5-miniなど)に置き換える際にすぐ性能が向上する。もちろん、すべての文書をクラウドモデルのコンテキストウィンドウに入れて良い結果が出るなら、ローカルモデルの制約を受け入れる必要はない。ただ長期的に見れば、タスクを分割してローカルで回したほうが安く、速くなる可能性もある
Hermes Mistralを動かしてみたが、最初からhallucinationがひどかった。最近、音声のドリームジャーナルを個人的にObsidianフォルダへ保存している。Whisperで.wavファイルを受け取って文字起こしし、ローカルLLMで句読点と段落だけ整えようとした。何も追加せず可読性だけ改善してくれと頼んだのに、Hermesが突然『孫子兵法』についてSun Tzuとのインタビューをでっち上げ始めた。プロセスを止めると謝ってきたが、なぜSun Tzuの話が出たのかも説明できなかった。こういうおかしなhallucinationを毎回見つけていくくらいなら、自分で編集したほうがましだ。こうしたロジックはローカルLLMを活用しようとするほぼすべての分野に当てはまる。いつか改善されてほしい
最先端LLMをスマホやノートPCで直接動かす時代は、まだ先だと思う。差し当たり現実的なのは、家にAIサーバーボックスを置いてLLMを動かす方向だろう。シンクライアント(ノートPCなど)はこのボックスに接続し、必要ならローカルでも小型モデルで適切に処理する。AppleがMac Proでこうした戦略を続けるなら自然だと思う。1万〜2万ドルの家庭用LLMボックスでも十分納得できる
今なら512GBメモリのMac Studio(約1万ドル)で最新のオープンソースモデルを動かせる。例として、Qwen3-Coder-480B-A35B-Instructが4bitで毎秒24トークンで動作する動画、Deep Seek V3 0324が4ビットで毎秒20トークンがある。2台のMac StudioをMLXで束ねて、さらに大きなモデルも実行可能。671B 8ビット DeepSeek R1の例
Mac Proは大きなケースのぶん高すぎて実用的ではないと思う。Studioのほうが合理的だ。NvidiaやAMDも、デスクトップフォームファクタで大容量の高帯域幅GPUメモリをまもなくサポートする予定だ。ノートPCや他のデバイスから自宅のLLMサーバーへ接続して、ローカルでバッテリーを気にせず使えれば理想的だ
自分の場合、AMD 395+でdockerコンテナを複数動かし、さまざまなアプリを運用している。Qwen Code、GPT OSS 120bモデルを主に使っている。新世代がもうすぐ出るので、高価でもアップグレードするつもりだ。それだけの価値がある
1万〜2万ドルという価格は、ほとんどの人にとって途方もなく高い。シリコンバレーの年収なら可能かもしれないが、それよりはるかに安いApple Vision Proですら売れ行きは低調だった
gpt-oss-120bのほうが、もっと少ないメモリでより良い性能を出せるのではないか? 128GBメモリの4,000ドルのMac Studioだけでも十分動かせるはずだ
話題とは関係ないが、最初の段落の「opinions」にあるウェーブ効果のテキストが印象的だった
自分はローカルLLMこそ未来だと思う。時間が経つほど改善され続けるはずだ。去年レベルのモデルでさえ配布されるなら、わざわざchatgptやanthropic、その他のクラウドサービスを使う理由はない。あらゆる仕事を解決する巨大モデルは必須ではない。作業ごとに小さなモデルを複数呼び出して使うという想像が現実になりつつある。もはや参入障壁(モート)はない
ローカルLLMの性能は今後も良くなるだろうが、一般人が実用的に使える時点がいつ来るかは何とも言えないと思う。ローカルモデルの推論能力やコーディング能力が飛躍的に向上したのは事実だが、その理由は訓練データの改善(RLHF、DPO、CoTなど)と技術力にある。それでも本当に重要なのは、巨大なフル精度パラメータセットの純粋な統計的出力によってhallucinationを最小化することだが、そのモデルと一般消費者との間にはハードウェア格差が非常に大きい。少なくともあと10年以上はかかりそうだ
自分は、安全でプライベートなクラウドコンピューティングこそ未来だと思う
ローカルLLM利用に関するブログや記事では、必ずどのハードウェアでテストしたのか書いてほしい
LM Studioに一票。構成の選択肢がいろいろ用意されているので、自分のMacBookで何ができるか、どう設定するかを直感的に理解できる。1〜2時間で良い体験になる
自分は16GB Mac Miniで適当にモデルを落として試しに回してみるのが趣味だが、筆者のモデル推薦リストは本当に助かる。各サイズごとに4〜5個だけ残して試すのがいちばん効率的だ
Mozilla-Ocho/llamafileも参考になる