ローカルでオープンLLMとコーディングアシスタントを使っていますか？環境を共有してください

(news.ycombinator.com)

16 ポイント投稿者 GN⁺ 2025-11-01 | 6件のコメント | WhatsAppで共有

Hacker Newsユーザーに対して、ローカルでオープンLLMとコーディングアシスタントをどのノートPCのハードウェアで、どのように使っているかを尋ねる Ask HN スレッド
どのモデル（例: Ollama、LM Studioなど）を使い、どのオープンソースのコーディングアシスタント／統合ソリューション（例: VS Codeプラグイン）を使っているか
どのノートPCハードウェア（CPU、GPU/NPU、メモリ、ディスクリートGPUまたは統合GPU、OS）を使い、ワークフローでどの程度の性能が出るか
どんな作業に使っているか（コード補完、リファクタリング、デバッグ、コードレビュー）？そして安定性はどの程度か（うまく動く部分と足りない部分）

1) MacBook Pro / Mac Studio (M2〜M4 Max, 64〜128GB) + LM Studio/Ollama + VS Code Continue
- 長所
  - Macのユニファイドメモリのおかげで、Qwen3-Coder-30B-A3B、gpt-oss-20b、Gemma 27Bまでそのままローカルで動き、「コードを読み込む → 要約 → 小さな修正」というワークフローが成立する
  - LM Studio API や Ollama serve を起動しておくだけで、VS Codeの Continue.dev、Zed、JetBrains がすぐ接続でき、実質的にClaude Codeに近いUXを体験できる
  - Mac特有の低遅延により、トークン速度が50〜80 tok/s程度であれば、コード補完やコメント生成でもそれほどもどかしくない
  - 飛行機・列車・オフライン環境でも使えるのが大きく、「会社のコードを外に出さない」用途に向いている
- 短所
  - 20Bを超えるモデルからは発熱とファンノイズの問題があり、M4 Max 128GBでも120Bは遅いか限界が見える
  - 「Claude 4.5 Sonnetのようにbash-in-a-loopで最後まで押し切る」エージェント的なシナリオはまだ弱い
  - 24GB、32GB級のMacBookはVRAM割り当てが小さいため、結局7B〜12B級まで下げる必要があり、コンテキストを大きくするとすぐ遅くなる
2) デスクトップ／ワークステーションにRTX 3090・4090・Pro 6000を載せ、ノートPCは薄型クライアントとして使う構成
- 長所
  - llama.cpp / vLLM / Ollama を一通り試せて、gpt-oss-120Bも「遅いが実際に」動かせる
  - VS Codeで Continue や llama-vscode をノートPC側で動かし、モデル推論は自宅のマシンに任せるため、ノートPCのバッテリーや発熱の負担がほとんどない
  - RTX 3090 24GB基準で gpt-oss-20B、Qwen2.5/3 Coder 14〜30B は実用的なトークン速度が出るため、自動補完＋短いリファクタリング程度なら十分
  - 自宅に Open WebUI + Ollama を立て、VPN/Tailscaleで接続するパターンが多く、リモートでもプライベート環境を維持できる
- 短所
  - GPU VRAMが24GB以下だと120Bは強く量子化する必要があり、品質が目に見えて落ちる
  - vLLMは性能は良いがインストールやビルドが面倒で、「更新されたランナーでもう一度試してみて」と言われるほど運用コストがかかる
  - 携帯性は事実上ないため、「本当にノートPC単体で完結させたい」目的には向かない
3) gpt-oss-120B中心の設定 (Aider, Codex, ローカルエージェント)
- 長所
  - 複数の人が「ローカルで使った中ではこれが最もGPT-5に近かった」と言うほど、コーディングタスクの精度 が高かった
  - Aider、Codex、roocode のようなオープンなコーディングアシスタントに接続し、レビュー → 修正 → テスト → コミット まで一気に任せる実験が実際に動いている
  - llama.cppで CPU+GPUの混合ロード を使い、8GB VRAMでも無理やり動かすコツが共有されており、ハードウェア要件は思ったより柔軟
- 短所
  - 問題は速度。同じ50問をChatGPTなら6分で終えるところを、120Bは1時間以上かかることもあり、「待つことを受け入れられる人」向け
  - Codexのようなツールでは inferenceパラメータをハードコード して停止しないようにする必要があり、AGENTS.mdも重めに書き込まないと人間のようには働かない
  - ノートPC単独では熱・電力・メモリの都合で長時間運用が難しく、実際には「ノートPCからリモートGPUへ接続する」形と見るのが妥当
4) AMD Strix Halo / Ryzen AI / Framework 128GB のような大容量RAMノートPC + llama.cpp/Continue.dev
- 長所
  - 128GB RAMがあれば Qwen3 Coder 30B も実用になり、必要なレイヤーだけをGPU/NPUに載せ、残りをRAMで回すハイブリッド運用ができる
  - 利用者いわく、「会社の外にコードを出せない」あるいは「AMDなのでクラウド向けドライバがまだ弱い」といった状況で、現実的な選択肢だった
  - lemonade-serverのような シンプルなllama.cppサーバー を起動時に自動実行しておき、エディタはネットワーク経由で接続する構成がうまく機能する
- 短所
  - Linuxでは 省電力／カメラ／ドライバ がまだ十分にこなれていないという報告があり、6.18カーネル待ちになる場合もあった
  - NPU性能はNVIDIA級ではないため、「フロンティア級エージェント」は望めず、結局は20〜30Bの“アシスタント”用途にとどまる
  - AMD向けの情報はGitHubリポジトリやフォーラムを辿って探す必要があり、情報密度はMacやNVIDIAより低い
5) 16〜32GB級の一般的なノートPC (MacBook Air、M2/M3 Proの低RAM構成) + 7B〜12BモデルでFIM自動補完だけ使う設定
- 長所
  - qwen2.5-coder:7b、mistral 7b instruct、gemma3:12b 程度でも、「この行の続きを書いて」「このSQL構文なんだっけ」といった用途にはすぐ応答する
  - llama-vscodeプラグイン や Continue.dev をつなげば、インターネットが切れても自動補完は継続するため、作業のリズムが途切れない
  - ハードウェア負荷が低く、発熱やファンノイズがほとんどなく、バッテリーの減りも遅い
- 短所
  - 文脈が少し長くなるだけで的外れな出力の割合がすぐ増え、リファクタリングやテストコード生成のような「複数ファイルを同時に理解する」作業はほぼ不可能
  - 多くの人が「これはクラウドモデルの代替ではなく、自動補完専用だ」と明言していた
  - モデルを4ビットに強く圧縮する必要があるため、選べるモデルの幅が狭い
6) 完全オフライン／プライバシー優先の設定 (Ollama + Open WebUI + VPN)
- 長所
  - 自宅にMac Studio M4 Max 128GBやデスクトップを1台置き、Ollama + Open WebUI だけ立ち上げておけば、外ではノートPCやスマートフォンからVPN接続しても、すべてローカルで完結する
  - この構成を使う人たちは、「もうChatGPTをほとんど使わない」「バージョンが変わらないので調整済みのプロンプトが壊れない」ことを強みとして挙げている
  - 社内で「すべてのコードが学習に使われることはない」という要件がある場合に、最も説明しやすい構成
- 短所
  - モデルのアップグレードや入れ替えを自分で行う必要があり、クラウドのように「勝手に賢くなる」ことはない
  - GPUが弱いと20B以上はすぐ遅くなり、結局ハードウェアを増強する必要が出てきて、その時点で「なぜクラウドにしなかったのか」と考え始める
7) 結論として共有されていた共通認識
- 「ノートPC単独」ではまだ Claude Code / GPT-5 + エージェント を置き換えるのは難しく、ローカルは 短いコード生成・ヘルプ・要約・自動補完 に最も向いている
- そのため多かった形は、「ノートPC ↔ 自宅の大きな箱」 あるいは 「Mac 128GBで20〜30Bだけ高速に回す」 というものだった
- それでも皆の意見は一致していた。プライバシー保証 + ほぼゼロに近い遅延 + バージョンが変わらない の3つが必要なら、今でもローカルが答えだということだ

6件のコメント

kaydash 2025-11-02

VPNを使うより、bearer tokenを設定してSSHトンネリングを使うほうがよさそうですが

savvykang 2025-11-02

LLMのセルフホスティングは、今後5年間は先行投資コストが大きく、採算が合わない状態が続くと考えています。3〜5年後に、コード自動補完に限ればそこそこ高速なハードウェアが登場して価格面のメリットが出てきたときに、改めて検討する予定です。

検討した構成

オールインワン構成: 業務用機材ではLLMを動かせません。開発ツールやブラウザベースのアプリを動かすだけでもRAMが足りません
LLM専用マシン構成: 会社にはグラフィックカードがないため動かせません。個人用PCとしても、スペックへの先行投資は簡単ではありません

GN⁺ 2025-11-01

Hacker Newsのコメント

AIを自分で触ってみたくて、中古のDell Precision 3620 Tower i7-7700を購入した
RAMを増設し、GPUとしてRTX 3060を載せるために電源ユニットも交換した
Ubuntu Serverをインストールして自宅のk3sクラスターノードとして構成し、OllamaとOpenWebUIを動かしている
主にKarakeepのAIタグ付けと要約に使っているが、Pythonコードで配送車両を検知する私道カメラの解析にも活用している
GPUなしでDell Precision T710（Xeon E6320、120GB RAM、RAID5 SSD 240TB）上でOllamaをCPUベースで動かしている
50州の選挙法をRAGでインデックス化し、用語の不一致やハルシネーションの問題を可視化しようとするプロジェクトを進めている
目標は選挙手続きにおける完全性ギャップを把握することだ
関連するマインドマップは Election Frauds v1.4 Mindmap PDF で見られる
- こういう社会的なプロジェクトに才能を使うのは本当に素晴らしい
ローカルLLMでコーディングはしているが、ノートPCではとても無理だ
GPUサーバーでllama.cpp + llama-swapを使ってモデルを切り替えながら利用している
いちばん満足している環境はAider + gpt-oss-120bの組み合わせだ
Ryzen AI Max+ 128GB RAMでも可能だろうが、NVIDIA以外のハードウェアは非常に遅い
OpenRouter経由でデータ保持を行わないプロバイダーだけを選ぶこともできる
ただしGPT5やClaudeはローカルよりはるかに速く、安価でもある
- gpt-oss-120bでRAGエージェントを作り、GCPドキュメントを学習させた
  ChatGPTは6分で46/50、gpt-oss-120bは1時間で47/50を記録した
  i7 + 64GB RAM + 8GB VRAM GPU環境で実行した
- llama-swap GitHubリンク
Macでローカルのコードエージェントを動かしたいなら、次のようにすればよい
1. npm install -g @openai/codex
2. brew install ollama; ollama serve
3. ollama pull gpt-oss:20b
4. codex --oss -m gpt-oss:20b
  インターネットなしで動作し、M1以降のMac + 24GB GPUメモリが必要だ
  120bモデルは20bより1.5倍高性能だが、要求スペックは5倍になる
- LM Studioのほうが簡単で、JetBrains IDEやZedとも連携できる
- 20bモデルで実際に価値のあるコードを作れたのか気になる
MacBook Pro 64GBでQwen3-Coder-30B-A3B Q4 quantをllama.cppで動かしている
VSCodeではcontinue.devを使い、システムプロンプトを短めに設定している
毎秒50トークン生成、550トークン処理の速度が出る
短く明確な作業ではフロンティアモデルに近い品質を見せる
オフライン環境でも高速かつ安定していて満足している
より複雑な作業にはClaudeやDeepseek APIを使う
- continue.devのInstinctモデルを使ったことがあるか、Qwenとの比較が気になる
- 128GBマシンなら別のquantを使うほうがよいのか、Hugging Faceのダウンロードリンクを共有してほしいという要望があった
- Qwen3をllama-vscodeでどう動かすのか尋ねるコメントもあった（Issueリンク）
Macを買うならProモデル以上を勧める
Airにはファンがなく熱対策ができないし、Mac miniよりStudioのほうがよいと思う
TG Proアプリでファンをより敏感に調整できる（約20ドル）
M4 Pro + 24GB RAMのMacBook ProでGPT OSS 20Bモデルを動かしているが、コンテキストウィンドウが小さい
128GBモデルなら一日中オフラインでコーディングもできそうだ
- Mac miniにもファンはあり、Studioは単により強力なチップを搭載した版だ
- Macを買うならMaxまたはUltraチップ + 最大メモリ構成が理想的だ
- 128GB MacBook Proはコンテキストキャッシュ性能が圧倒的だ
- デフォルトのコンテキストウィンドウは小さいが、gpt-oss-20bでは4倍に拡張できる
- M3/M4 + 128GBでも長いプロンプトの処理速度は遅いという意見があった
Apple M4 Max 128GBとGPD Win 4（Ubuntu 24.04）をUSB-Cで接続して使っている
Claude Code、RA.Aid、llama.cppを組み合わせ、Agent Organizerで作業を振り分けている
Claudeがアーキテクチャ設計からコードレビューまで自動化してくれる
- GPD Win 4がどんな役割なのか、小型モデルで分散処理しているのかを尋ねる質問があった
- 各モデルのトークン処理速度を聞くコメントもあった
- 使っているAgent Organizerが何なのか気になるという質問もあった
LLMワークステーションを見たいならAlex ZiskindのYouTubeチャンネル（@AZisk）がおすすめだ
さまざまなローカルLLM向けワークステーションのレビューを扱っている
プレゼンも分かりやすく、助言も実用的だ
- スポンサー支援はあるだろうが、機材を自腹で購入してレビューするリスクを引き受ける姿勢が印象的だ
- 「無駄話なしで要点だけ話すチャンネル」として勧めるコメントもあった
MacBook Pro M4 Max 128GBでLMStudioとOllamaを主に使っている
モデルはqwen3-coder-30b A3B Instruct 8-bit MLXとgpt-oss-120b-MXFP4-Q8
大規模なコード生成には限界があるが、ローカルリポジトリの要約や文書化には十分だ
関連コミュニティも活発だ
- r/LocalLLM
- r/LocalLLaMA
- MacでCoderunner（GitHubリンク）を使えば、LLMが生成したコードを安全なサンドボックスで実行できる
- LM Studio APIとqwen CLIをつなげれば、Claude Codeに近い環境を作れる
  READMEの生成にはgemma3-27b-it-qatとgpt-oss-120bを好んで使っている
MacBook Pro M1 Pro 32GB + Asahi LinuxでQwen3:32bをCLIから動かしている
ARMv8アセンブリやSoC関連の支援を受けている
速度は読む速さより少し遅い程度で、十分実用になる
Qwen3-coderのほうが速いと聞いて興味が湧いている
クラウドやエージェント統合なしの完全なローカル環境を好む
Ollamaがオフライン重視から離れてきたので、今はllama.cppへの移行を考えている
モデル形式が違うため、Ollamaのモデルをそのまま使えるのか悩んでいる
[注意] Linuxでは消費電力が大きいので、必ず電源接続した状態で使うべきだ
- Qwen3 Coderは**MoE構造（30Bのうち3Bがアクティブ）**なので、はるかに高速だ
  一般作業ではやや劣るが、コーディング中心の作業には効率的だ

chcv0313 2025-11-02

ずっと読んでいると……意外と DGX SPARK に需要があるのかもしれない、という気がしてきますね？最初は、あれはコスパ最悪なのになんで買うんだ！と思っていたのですが、

aer0700 2025-11-02

社内のセキュリティポリシーのため、外部のLLM APIは一切使用しておらず、社内のクラウド管理部門が vllm ベースで提供している gpt oss を利用しています。

aer0700 2025-11-02

ローカルと言うには、ちょっと微妙ですね。

ローカルでオープンLLMとコーディングアシスタントを使っていますか？ 環境を共有してください

関連記事

6件のコメント

Hacker Newsのコメント

ローカルでオープンLLMとコーディングアシスタントを使っていますか？環境を共有してください