ローカルでオープンLLMとコーディングアシスタントを使っていますか? 環境を共有してください
(news.ycombinator.com)- Hacker Newsユーザーに対して、ローカルでオープンLLMとコーディングアシスタントをどのノートPCのハードウェアで、どのように使っているかを尋ねる Ask HN スレッド
- どのモデル(例: Ollama、LM Studioなど)を使い、どのオープンソースのコーディングアシスタント/統合ソリューション(例: VS Codeプラグイン)を使っているか
- どのノートPCハードウェア(CPU、GPU/NPU、メモリ、ディスクリートGPUまたは統合GPU、OS)を使い、ワークフローでどの程度の性能が出るか
- どんな作業に使っているか(コード補完、リファクタリング、デバッグ、コードレビュー)? そして安定性はどの程度か(うまく動く部分と足りない部分)
-
1) MacBook Pro / Mac Studio (M2〜M4 Max, 64〜128GB) + LM Studio/Ollama + VS Code Continue
- 長所
- Macのユニファイドメモリのおかげで、Qwen3-Coder-30B-A3B、gpt-oss-20b、Gemma 27Bまでそのままローカルで動き、「コードを読み込む → 要約 → 小さな修正」というワークフローが成立する
- LM Studio API や Ollama serve を起動しておくだけで、VS Codeの Continue.dev、Zed、JetBrains がすぐ接続でき、実質的にClaude Codeに近いUXを体験できる
- Mac特有の低遅延により、トークン速度が50〜80 tok/s程度であれば、コード補完やコメント生成でもそれほどもどかしくない
- 飛行機・列車・オフライン環境でも使えるのが大きく、「会社のコードを外に出さない」用途に向いている
- 短所
- 20Bを超えるモデルからは 発熱 とファンノイズの問題があり、M4 Max 128GBでも120Bは遅いか限界が見える
- 「Claude 4.5 Sonnetのようにbash-in-a-loopで最後まで押し切る」エージェント的なシナリオはまだ弱い
- 24GB、32GB級のMacBookはVRAM割り当てが小さいため、結局7B〜12B級まで下げる必要があり、コンテキストを大きくするとすぐ遅くなる
- 長所
-
2) デスクトップ/ワークステーションにRTX 3090・4090・Pro 6000を載せ、ノートPCは薄型クライアントとして使う構成
- 長所
- llama.cpp / vLLM / Ollama を一通り試せて、gpt-oss-120Bも「遅いが実際に」動かせる
- VS Codeで Continue や llama-vscode をノートPC側で動かし、モデル推論は自宅のマシンに任せるため、ノートPCのバッテリーや発熱の負担がほとんどない
- RTX 3090 24GB基準で gpt-oss-20B、Qwen2.5/3 Coder 14〜30B は実用的なトークン速度が出るため、自動補完+短いリファクタリング程度なら十分
- 自宅に Open WebUI + Ollama を立て、VPN/Tailscaleで接続するパターンが多く、リモートでもプライベート環境を維持できる
- 短所
- GPU VRAMが24GB以下だと120Bは強く量子化する必要があり、品質が目に見えて落ちる
- vLLMは性能は良いがインストールやビルドが面倒で、「更新されたランナーでもう一度試してみて」と言われるほど運用コストがかかる
- 携帯性は事実上ないため、「本当にノートPC単体で完結させたい」目的には向かない
- 長所
-
3) gpt-oss-120B中心の設定 (Aider, Codex, ローカルエージェント)
- 長所
- 複数の人が「ローカルで使った中ではこれが最もGPT-5に近かった」と言うほど、コーディングタスクの精度 が高かった
- Aider、Codex、roocode のようなオープンなコーディングアシスタントに接続し、レビュー → 修正 → テスト → コミット まで一気に任せる実験が実際に動いている
- llama.cppで CPU+GPUの混合ロード を使い、8GB VRAMでも無理やり動かすコツが共有されており、ハードウェア要件は思ったより柔軟
- 短所
- 問題は速度。同じ50問をChatGPTなら6分で終えるところを、120Bは1時間以上かかることもあり、「待つことを受け入れられる人」向け
- Codexのようなツールでは inferenceパラメータをハードコード して停止しないようにする必要があり、AGENTS.mdも重めに書き込まないと人間のようには働かない
- ノートPC単独では熱・電力・メモリの都合で長時間運用が難しく、実際には「ノートPCからリモートGPUへ接続する」形と見るのが妥当
- 長所
-
4) AMD Strix Halo / Ryzen AI / Framework 128GB のような大容量RAMノートPC + llama.cpp/Continue.dev
- 長所
- 128GB RAMがあれば Qwen3 Coder 30B も実用になり、必要なレイヤーだけをGPU/NPUに載せ、残りをRAMで回すハイブリッド運用ができる
- 利用者いわく、「会社の外にコードを出せない」あるいは「AMDなのでクラウド向けドライバがまだ弱い」といった状況で、現実的な選択肢だった
- lemonade-serverのような シンプルなllama.cppサーバー を起動時に自動実行しておき、エディタはネットワーク経由で接続する構成がうまく機能する
- 短所
- Linuxでは 省電力/カメラ/ドライバ がまだ十分にこなれていないという報告があり、6.18カーネル待ちになる場合もあった
- NPU性能はNVIDIA級ではないため、「フロンティア級エージェント」は望めず、結局は20〜30Bの“アシスタント”用途にとどまる
- AMD向けの情報はGitHubリポジトリやフォーラムを辿って探す必要があり、情報密度はMacやNVIDIAより低い
- 長所
-
5) 16〜32GB級の一般的なノートPC (MacBook Air、M2/M3 Proの低RAM構成) + 7B〜12BモデルでFIM自動補完だけ使う設定
- 長所
- qwen2.5-coder:7b、mistral 7b instruct、gemma3:12b 程度でも、「この行の続きを書いて」「このSQL構文なんだっけ」といった用途にはすぐ応答する
- llama-vscodeプラグイン や Continue.dev をつなげば、インターネットが切れても自動補完は継続するため、作業のリズムが途切れない
- ハードウェア負荷が低く、発熱やファンノイズがほとんどなく、バッテリーの減りも遅い
- 短所
- 文脈が少し長くなるだけで的外れな出力の割合がすぐ増え、リファクタリングやテストコード生成のような「複数ファイルを同時に理解する」作業はほぼ不可能
- 多くの人が「これはクラウドモデルの代替ではなく、自動補完専用だ」と明言していた
- モデルを4ビットに強く圧縮する必要があるため、選べるモデルの幅が狭い
- 長所
-
6) 完全オフライン/プライバシー優先の設定 (Ollama + Open WebUI + VPN)
- 長所
- 自宅にMac Studio M4 Max 128GBやデスクトップを1台置き、Ollama + Open WebUI だけ立ち上げておけば、外ではノートPCやスマートフォンからVPN接続しても、すべてローカルで完結する
- この構成を使う人たちは、「もうChatGPTをほとんど使わない」「バージョンが変わらないので調整済みのプロンプトが壊れない」ことを強みとして挙げている
- 社内で「すべてのコードが学習に使われることはない」という要件がある場合に、最も説明しやすい構成
- 短所
- モデルのアップグレードや入れ替えを自分で行う必要があり、クラウドのように「勝手に賢くなる」ことはない
- GPUが弱いと20B以上はすぐ遅くなり、結局ハードウェアを増強する必要が出てきて、その時点で「なぜクラウドにしなかったのか」と考え始める
- 長所
-
7) 結論として共有されていた共通認識
- 「ノートPC単独」ではまだ Claude Code / GPT-5 + エージェント を置き換えるのは難しく、ローカルは 短いコード生成・ヘルプ・要約・自動補完 に最も向いている
- そのため多かった形は、「ノートPC ↔ 自宅の大きな箱」 あるいは 「Mac 128GBで20〜30Bだけ高速に回す」 というものだった
- それでも皆の意見は一致していた。プライバシー保証 + ほぼゼロに近い遅延 + バージョンが変わらない の3つが必要なら、今でもローカルが答えだということだ
6件のコメント
VPNを使うより、bearer tokenを設定してSSHトンネリングを使うほうがよさそうですが
LLMのセルフホスティングは、今後5年間は先行投資コストが大きく、採算が合わない状態が続くと考えています。3〜5年後に、コード自動補完に限ればそこそこ高速なハードウェアが登場して価格面のメリットが出てきたときに、改めて検討する予定です。
検討した構成
Hacker Newsのコメント
AIを自分で触ってみたくて、中古のDell Precision 3620 Tower i7-7700を購入した
RAMを増設し、GPUとしてRTX 3060を載せるために電源ユニットも交換した
Ubuntu Serverをインストールして自宅のk3sクラスターノードとして構成し、OllamaとOpenWebUIを動かしている
主にKarakeepのAIタグ付けと要約に使っているが、Pythonコードで配送車両を検知する私道カメラの解析にも活用している
GPUなしでDell Precision T710(Xeon E6320、120GB RAM、RAID5 SSD 240TB)上でOllamaをCPUベースで動かしている
50州の選挙法をRAGでインデックス化し、用語の不一致やハルシネーションの問題を可視化しようとするプロジェクトを進めている
目標は選挙手続きにおける完全性ギャップを把握することだ
関連するマインドマップは Election Frauds v1.4 Mindmap PDF で見られる
ローカルLLMでコーディングはしているが、ノートPCではとても無理だ
GPUサーバーでllama.cpp + llama-swapを使ってモデルを切り替えながら利用している
いちばん満足している環境はAider + gpt-oss-120bの組み合わせだ
Ryzen AI Max+ 128GB RAMでも可能だろうが、NVIDIA以外のハードウェアは非常に遅い
OpenRouter経由でデータ保持を行わないプロバイダーだけを選ぶこともできる
ただしGPT5やClaudeはローカルよりはるかに速く、安価でもある
ChatGPTは6分で46/50、gpt-oss-120bは1時間で47/50を記録した
i7 + 64GB RAM + 8GB VRAM GPU環境で実行した
Macでローカルのコードエージェントを動かしたいなら、次のようにすればよい
npm install -g @openai/codexbrew install ollama; ollama serveollama pull gpt-oss:20bcodex --oss -m gpt-oss:20bインターネットなしで動作し、M1以降のMac + 24GB GPUメモリが必要だ
120bモデルは20bより1.5倍高性能だが、要求スペックは5倍になる
MacBook Pro 64GBでQwen3-Coder-30B-A3B Q4 quantをllama.cppで動かしている
VSCodeではcontinue.devを使い、システムプロンプトを短めに設定している
毎秒50トークン生成、550トークン処理の速度が出る
短く明確な作業ではフロンティアモデルに近い品質を見せる
オフライン環境でも高速かつ安定していて満足している
より複雑な作業にはClaudeやDeepseek APIを使う
Macを買うならProモデル以上を勧める
Airにはファンがなく熱対策ができないし、Mac miniよりStudioのほうがよいと思う
TG Proアプリでファンをより敏感に調整できる(約20ドル)
M4 Pro + 24GB RAMのMacBook ProでGPT OSS 20Bモデルを動かしているが、コンテキストウィンドウが小さい
128GBモデルなら一日中オフラインでコーディングもできそうだ
Apple M4 Max 128GBとGPD Win 4(Ubuntu 24.04)をUSB-Cで接続して使っている
Claude Code、RA.Aid、llama.cppを組み合わせ、Agent Organizerで作業を振り分けている
Claudeがアーキテクチャ設計からコードレビューまで自動化してくれる
LLMワークステーションを見たいならAlex ZiskindのYouTubeチャンネル(@AZisk)がおすすめだ
さまざまなローカルLLM向けワークステーションのレビューを扱っている
プレゼンも分かりやすく、助言も実用的だ
MacBook Pro M4 Max 128GBでLMStudioとOllamaを主に使っている
モデルはqwen3-coder-30b A3B Instruct 8-bit MLXとgpt-oss-120b-MXFP4-Q8
大規模なコード生成には限界があるが、ローカルリポジトリの要約や文書化には十分だ
関連コミュニティも活発だ
READMEの生成にはgemma3-27b-it-qatとgpt-oss-120bを好んで使っている
MacBook Pro M1 Pro 32GB + Asahi LinuxでQwen3:32bをCLIから動かしている
ARMv8アセンブリやSoC関連の支援を受けている
速度は読む速さより少し遅い程度で、十分実用になる
Qwen3-coderのほうが速いと聞いて興味が湧いている
クラウドやエージェント統合なしの完全なローカル環境を好む
Ollamaがオフライン重視から離れてきたので、今はllama.cppへの移行を考えている
モデル形式が違うため、Ollamaのモデルをそのまま使えるのか悩んでいる
[注意] Linuxでは消費電力が大きいので、必ず電源接続した状態で使うべきだ
一般作業ではやや劣るが、コーディング中心の作業には効率的だ
ずっと読んでいると……意外と DGX SPARK に需要があるのかもしれない、という気がしてきますね? 最初は、あれはコスパ最悪なのになんで買うんだ! と思っていたのですが、
社内のセキュリティポリシーのため、外部のLLM APIは一切使用しておらず、社内のクラウド管理部門が
vllmベースで提供している gpt oss を利用しています。ローカルと言うには、ちょっと微妙ですね。