ローカルモデルの実行がいまやかなり良くなった

(vickiboykis.com)

20 ポイント投稿者 GN⁺ 2026-06-17 | 7件のコメント | WhatsAppで共有

2022年モデルのM2 Mac環境でも、ローカルLLMが開発に関する質問、コード作業、ドキュメント確認に実用的に使えるほど性能が向上した
初期のローカルモデルは遅く、使いづらく、プログラミング作業の精度も低かったが、GPT-OSS以降はAPIモデルで再確認する頻度が減った
Gemma 4系の最新リリースにより、ローカルのエージェント型コーディングループがフロンティアモデル比で約75%の精度・速度で動作する
PiとLM Studioの組み合わせは、ローカル推論エンドポイント、モデルアーティファクト、Docker隔離構成を通じてエージェントワークフローを実行する
ローカルモデルには推論遅延、小さなコンテキストウィンドウ、ハードウェア制約が残る一方、トークン処理、システムプロンプト、量子化、ハーネスを直接観察して変更できる

ローカルモデルの現在地

初期のローカルモデルは、ほとんどのプログラミング作業で遅く、使いづらく、精度も低かった
ローカルモデルが大きく遅れているという判断は、個人利用の基準ではGPT-OSSの登場前まではおおむね正しかった
「十分に良いモデル」の個人的な基準は、APIモデルで再確認する必要があるかどうかであり、GPT-OSSはその確認頻度を大きく減らした最初のモデルだった
ローカルモデルは最近まで、最新性を必要としない開発関連の質問に対する高速でパーソナライズされたGoogleのような用途が中心だった
Gemma 4系の最新リリース以降、ローカルでのエージェント型コーディングループはフロンティアモデル比で約75%の精度・速度で動作する {p:75}

使用したモデルと実行環境

2022年モデルのM2 Mac、64GB RAM、1TBストレージ環境で複数のローカルモデルを動かした
- 使用モデルは Mistral 7B、Gemma 3、OpenAI OSS-20B、Qwen 3 MOE、Qwen 2.5 Coder など
実行構成は raw llama.cpp と Open WebUI、llama-cpp-python、Ollama、llamafiles、LM Studio を経た
デフォルトのローカルモデルとして LM Studioのgemma-4-26b-a4b実装を用いた

実際のローカルエージェント作業例

ノートブックだったPythonスクリプトを、5〜6個のモジュールからなるリポジトリへリファクタリングした
そのモジュールは PEP 585 に合わせてジェネリック型ヒントを使うよう lint をかけた
ブログ記事の校正、単体テストの作成、推薦向けtwo-towerモデルのリポジトリ初期構成にもローカル設定を使った
ゼロからエージェントが生成したtwo-towerモデルのリポジトリは基本的なものだったが、昨年なら可能だと思っていた範囲を超えていた
すべてのエージェントワークフローは、実行アクセス権を制限したDockerコンテナ内で動かした

リソース使用量と最新の小型モデル

実行した作業は画期的なものというより、パーソナライズされたGoogleやドキュメント参照に近かった
作業中はGPUとRAMの使用量が増え、K-Vキャッシュは64GB RAMまで膨らんだ
単純な作業であっても、この種のローカルモデル作業は6か月前なら不可能だった
Gemma-4-12b-qat は公開直後からサイズに対する性能が印象的だった
モデルアーキテクチャは、性能と価格の制約があるときにどのようなアーキテクチャ上のトレードオフが必要かを考えさせる

ローカルエージェントモデルの実行構成

ローカルのエージェントフローを実行するには、ローカルモデル推論エンジン、エージェントハーネス、ローカルモデルアーティファクトが必要
ハーネスはローカル推論エンドポイントを向くよう設定する必要があり、ダウンロードしたモデルアーティファクトは推論エンジン経由で提供しなければならない
現在のローカル構成では、Pi をエージェントハーネス、LM Studio を推論サーバーとして使っている
PiとLM StudioでGemma 4エージェントコーディングを設定する記事に従いつつ、いくつか設定を変更した
- モデルは記事内の Gemma 26B A4B の代わりに、より新しく小さく速い gemma-4-12b-qat を使い、精度低下も大きくなかった
- セキュリティのため、すべてのPiセッションはDockerコンテナで実行し、bash権限のみを与えてPythonコード実行とWebブラウジングを防いだ
- 研究作業用の別イメージではcurlの許可を予定している
- Docker内で実行するため、Piの models.json を修正してPiがモデルと通信できるようにした

Dockerベースの隔離方式

Piの設定では baseUrl を http://host.docker.internal:1234/v1 にし、APIは openai-completions に設定した
Docker Compose構成では、models.json、作業ディレクトリ、Pi設定、セッションディレクトリをコンテナにマウントする
実行スクリプトは現在の作業ディレクトリをコンテナのワークスペースへ接続し、必要に応じてより安全なサンドボックス用Composeファイルを追加する
Piは作業中のリポジトリ内で実行され、Docker上で動くため、物理ディスク上のファイルやディレクトリを直接削除できない
カスタムモデルの json 設定をコンテナ内へ渡せるため、実験環境では比較的うまく動作した

残る限界

ローカルモデルはまだ推論が遅い場合があり、コンテキストウィンドウも小さく、利用可能なコンテキストは手元のハードウェアに制限される
エコシステムは、LM StudioやHugging Faceの Use This Modelボタンのようなツールのおかげで、はるかに簡単になった
初期リリースではプロンプトテンプレート不一致の問題が起きるが、こうした問題は通常きわめて素早くパッチされる
本番ソフトウェア開発にそのまま使える準備ができたと断言するのはまだ難しい

ローカルモデルの利点と実験可能性

ローカルモデルでは、ほぼあらゆるものをのぞき込め、トークン推論の過程をリアルタイムで見られる
入出力トークンの流れを直接確認できる
ローカルのコンテキストウィンドウを変えながら、性能が良くなったり悪くなったりする過程を確認できる
トークンがGPUで処理される方式を深掘りでき、システムプロンプトや量子化設定も変更できる
モデル同士を競わせたり、ハーネス側の設定を変えて観察したりできるため、実験の可能性は広がり続けている

7件のコメント

syate 2026-06-18

「作業の自然なまとまりの大きさと、小さなモデルが具体的な指示を好むという点のため、ユーザーはコードをはるかに詳しく理解するようになる。
だからといってローカルモデルがプロジェクト構造の要約やバグ探しをできないという意味ではなく、より手をかける作業スタイルに見合うだけの見返りがあるということだ。」

コメントに印象的な部分がありますね。
同感です。

emptybynature 2026-06-17

ローカルモデルを「実用的になった」と表現するなら、ChatGPTはスーパーインテリジェントと呼んであげないといけないでしょう……ローカルモデルはまだまだ先が長いです。私の基準では、ローカルモデルが実用的だと言うには、RTX 5090を4枚つないで100B以上のクラスのモデルを回してこそ、"ようやく"使えるレベルだと思います。

GN⁺ 2026-06-17

Lobste.rsのコメント

今のワークフローではこういうツールをあえて使いたいとは思わないが、最大の不満は中央集権化にあり、その影響は環境、プライバシー、権力分配といった領域にも及ぶと考えている
だから、ローカルホスト可能なモデルが実際に良くなってきているのは歓迎したい
- 今後はそちらに向かう可能性が高いと思う。自分のデータをすべてサービス提供者に送りたい人はいないし、値上げやモデル提供の有無も完全に提供者次第だ
  AnthropicのFable騒動で見たように、自らデジタル小作人になるのは現実的なリスクだ
  ローカルモデルとコーディングハーネスがさらに良くなれば、提供者からモデルを借りる理由は減っていくし、ローカルモデルの総合性能が多少低くても同じことだ。たとえば多くの人がClaudeではなくDeepSeekを使うのは、十分実用的でありながらはるかに安いからで、ローカルでもある時点からは、より良いモデルを借りられるかどうかより、ローカルモデルが仕事をこなせるかどうかのほうが重要になる
  ツールをカスタマイズしてチューニングできる可能性も大きい。特定言語向けのLoRAを作った例はあまり見たことがないが、限られた領域ではモデルをはるかに効果的にでき、その段階では巨大な汎用モデルよりうまくやれるかもしれない
- ローカルモデルは興味深い形で異なっており、その一部は利点になりうる。推論電力はだいたいハイエンドのゲーミングGPU並みで、それもトークン生成時にしか使わず、通常は約300Wに制限できる。コードを読みながら書くなら、勤務時間の25%程度しかトークン生成に使わないため、継続電力は75W程度と見ている
  ローカルサイズのモデルをいくつか年に1回学習させるための電力は、産業文明の背景雑音に吸収される程度かもしれない。データはすべてローカルに残り、商売人たちをこれ以上けしかけずに済む
  ローカルモデルはより間抜け寄りなので、かえって作業により密着させてくれる。Fableには「この通りに家を並べて埋めて」と指示すれば粗末なマクマンションを大量に吐き出せるが、Qwen3.6 27Bには「この4つの部屋を塗って」と言うくらいが自然だ。作業の自然な塊の大きさと、小さなモデルが具体的な指示を好むことのために、ユーザーはコードをずっと詳しく理解するようになる
  だからといってローカルモデルがプロジェクト構造の要約やバグ探しをできないという意味ではなく、より手を動かす作業スタイルに報いてくれるという意味だ。Fableは、こちらが終わりだと本気で確信させるモデルで、実際にプロジェクト全体をあっという間に吐き出せる。その「マクマンション」は見た目こそ悪くないが、屋根は漏れ、基礎は揺らぎ、出来栄えは売れる最低限にすぎない。もちろん市場では大成功する可能性が高く、最悪の日のFableでさえ多くのエンタープライズSaaSよりはましだ。もちろんコンプライアンスとセキュリティを別にすればの話だが
  なのでローカルモデルは面白いツールだと思うが、次世代フロンティアモデルが生み出す大混乱は本当に楽しみではない
学界にいる人たちはローカルモデルを何に使っているのか気になる。qwen3-coder:30bはLaTeX編集やOCR処理した論文の結果を問い合わせるのにはよかったが、ほかに用途があるのか知りたい
- 学界にいる。エージェント的コーディングは使わないし、文章執筆にはLLMをまったく使わない。たいていの編集者が禁止しているのではないかとも思う
  試すたびにとても失望したし、ローカル推論パイプラインを設定する手間と脆さも大きい。ノートPCのGPUが小さすぎるので、共有計算クラスターを使わなければならない
  ときどきollama/qwen3-coderやduck.aiは使う。慣れていない言語やライブラリで何かをする方法を検索するキーワードが思い浮かばないとき、あるいは正規表現やSQLのように詳しくない非常に特定の作業で助けを借りる程度だ
- 翻訳の下書きを作るのに使っている。その翻訳を校正しているうちに、翻訳しなくても見つけられたかもしれないが実際には見落としていた授業資料の誤りをかなり修正できた。単一言語環境ではない場所で教えるときに特に関係がある
  個人用の小さなスクリプトやミニツールの最初の草案を一発で作るのにも使っている。たとえば翻訳リクエストからTikZを除外するハーネスのようなものだ。その後デバッグは必要だが、LLMがそこそこ当てる退屈な部分を自分で書くより、デバッグのほうがずっと面白い。検証戦略は手書きの場合以上に重要で、理想的には「残っているバグがツール実行時にかなり明確に表れる」形であるべきだ
  正直なところQwen3.6は、標準的な証明作成の練習問題の例題解答の下書きを作るのに、思ったより悪くなくて驚いた。望むスタイルに合わせて編集していくと、斧粥と石のスープのような感じになることもあるが、いくつかの数式は最後まで残る可能性がある。結局のところ、どれだけ退屈な作業か次第だ
- 基本的には、単なるスペルチェックや文法チェックを超えた校閲に使っている。あるいはデータ分析用の手早いスクリプトを書くのに使うが、最終分析ではなく、パイロット実験のような探索用途だ

kaboom45 2026-06-17

DDR3+i5内蔵グラフィックスPCで、qwen3.6 27bを毎秒1トークンで動かしています。
昔はこんなふうに待ってもひどい結果しか出ませんでしたが、今は一応使えるものが出てくるようになりました。
6か月前には80〜120B級のサイズが必要だった性能が、30B級で十分なところまで進化していて、1年くらい後にはopus4.8やgpt5.5級のコード性能も30Bで見られるようになるのではないかと思います。
そうなれば、こうして1日かけて5〜7万トークンずつひねり出すローカルモデルも、十分にサブとして選ぶ価値のある選択肢になると信じています。

beoks 2026-06-17

ローカルモデルをきちんと活用するにはそれ相応のハードウェアが必要ですが、そのハードウェア自体もかなり高価なので、セキュリティのような特別な理由がない限り、現時点ではサブスクリプションやAPI呼び出しのほうがコストパフォーマンスは高い気がします。

kaydash 2026-06-17

エージェント用までは何とかなるけど、コーディングエージェント用としてはちょっと…。