会社のようにお金を使わずに、自宅でAIコーディングする
(stephen.bochinski.dev)- 個人向けAIコーディングのコストを下げる選択肢は、セルフホスティング、オープンソースモデルAPIの利用、フロンティアサブスクリプションの最適化の3つに分かれる
- セルフホスティングは機材を購入してローカルでオープンソースモデルを動かし、その後はトークン単価の費用を払わないが、初期費用が大きく、自宅で動かせるモデルはフロンティア研究所のモデルより弱い
- オープンソースモデルをAPI料金で借りれば、GPU構成に数千ドルを固定せずに済み、性能を引き出すための作業を避けられ、翌月にはより安い、あるいはより良い選択肢へ切り替えやすい
- OpenAIとAnthropicのフロンティアサブスクリプションは月約400ドルで、定価ベースでは約2,800ドル分のAPI利用量を得られるが、大規模なAIネイティブワークフローでは含まれるトークンをすぐに消費してしまう
- 最も相性が良い方法は、フロンティアサブスクリプションを難しい思考と仕様作成に使い、オープンソースAPIを小さく機械的な作業に使う混合戦略である
3つの選択肢
- 自宅で会社レベルの支出をせずにAIコーディングを行う方法は3つあり、どの方式が合うかは、今後1年のハードウェアとモデルのリリースをどれだけ信頼するかに大きく左右される
- セルフホスティングは自分で機材を購入し、オープンソースモデルをローカルで実行する方式で、その後はトークン単価の費用がかからない
- 初期費用が大きく、自宅で実際に動かせるモデルはフロンティア研究所が出すモデルより弱い
- 遅くて安価なモデルが一晩中作業する長時間実行ジョブによって機材を継続的に活用できる場合にのみ、費用対効果がある
- ほとんどの人にとって、自宅の機材をそのように高負荷で維持し続けるのは難しく、今日買ったハードウェアが1年後には悪い選択に見える可能性がある
- オープンソースモデルAPIの利用は、同じオープンソースモデルを提供事業者からAPI料金で借りる方式で、ほとんどの人に合う選択である
- GPU構成1台に数千ドルを投じる必要がなく、オープンモデルで長時間実行の性能を引き出す作業を避けられる
- 翌月にはより安い、またはより良い選択肢へ簡単に切り替えられ、機材を転売する必要もない
- OpenRouter のようなサービスは、切り替えをほぼ1行の変更だけで済むものにしてくれる
- フロンティアサブスクリプションの最適化は、OpenAIとAnthropicのサブスクリプションを最大限活用する方式である
- 月約400ドルの料金プランで、定価ベースでは約2,800ドル分のAPI利用量を得られるため、上限に達するまでは大きな割引効果がある
- プランは利用量が計測され、大規模なAIネイティブワークフローでは含まれるトークンをすぐに消費してしまう
- 人が直接主導する作業にはよく合うが、一日中動き続けるエージェントのエンジンとしては不足する
最もうまく機能した組み合わせ
- 最もうまく機能した方法は、フロンティアサブスクリプションとオープンソースモデルAPIを併用する組み合わせである
- フロンティアサブスクリプションをいくつか、難しい思考と仕様作成のために維持し、小さく機械的な作業はオープンソースモデルのAPI料金で処理する
- 仕様主導開発を活用すれば、高価なモデルが計画を作り、安価なモデルがその計画を埋める構造になる
- この方法をうまく実行すれば、エンジニア20人規模のチームが1か月で出す成果物を約1,000ドルで作れる
1件のコメント
Hacker Newsの意見
停滞期に来た気がしていて、次の段階にどう上がればいいのかわからない。今は月額$100のCodexプランで5.5-xhighを使い続けているが、それで十分に思える
次にやることを考え、チャットセッションで実装直前まで依頼内容を具体化してから、Codexにコミット単位の作業を処理させ、ローカル開発サーバーで簡単に確認する。必要なら修正を依頼し、そのあとコミットさせ、仕様ベースで次のステップを提案してもらう。どうせ時々サンドボックス外の要求を「承認」しなければならないこともある
一晩中回すほどの作業はまだ見つかっていない。大きな計画を一度にやらせることもできるだろうが、中間成果物を少し違うものにしたくなることが多く、無駄に感じる
次は、Codex GUIの要求をトンネリングできるマシンVMのようなものを調べる必要がありそうだ。自分のMac全体に「危険な」アクセス権を与えたくはない
サイドプロジェクトでみんな何をしているからそんなに早くトークンを燃やし、月額$200のサブスクを2つに加えて追加トークン課金まで必要になるのか理解できない
AIに何時間も延々と回させるのが少しでも理にかなうケースは、ひとつしか見つかっていない。5つのファームウェアイメージが入ったウィジェットをリバースエンジニアリングしていて、バイナリをダンプし、AIに相互に絡み合ったファームウェアプロジェクト群をデコンパイルしてリバースエンジニアリングさせた。複雑だが範囲は非常によく定義された作業だ。難しい仕事というより量が多い仕事で、成果物はCのように見えるテキストの塊で、情報提供用にすぎず直接コンパイルはできない。出力品質は入力アセンブリに強く依存し、全体の成果物はコード形式のドキュメントだ
リスクがゼロなので、AIに無人で好きなだけ処理させても抵抗がない。それでもAIがアセンブリを認識できるCプロジェクトの形に叩き直してくれると、自分で読んで推論するのがずっと楽になる。簡単に勝てる案件だと思う
プログラムを作ってくれと頼んだ直後、できあがるとすぐAIに実行方法を聞くような感じだ。バグが出たらAIに何が悪いのかを聞くか、全体を捨ててモデルやハーネスを変えてやり直す
例: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
あなたが説明した専門的な作業フローとはまったく違う。消費者向けのおもちゃに近い
320,000,000トークンで約$4.8使った。Claudeプランを使っていたときは、価格を正当化するためにLLMが常に何かしていなければならないというプレッシャーがあった。DeepSeekに変えてからは、もうそう考えなくなった。サブスクを使っていなくても罪悪感がないし、上限も心配しない。払えばいいだけだからだ。特に時間単位の制限がないので、並列実行では差が大きく感じられる
トークンをもっと買ったからといって、思考能力が「レベルアップ」するわけではない。より自動化されたものを回している人たちは、自分の思考より先を走ってしまっている可能性が高く、結局それが足かせになるだろう
RTX 5090で Trellis2 -> ultrashapes -> Trellis2 -> リギング接続とアニメーション設定を回している
ただ、その作業の99%はCodexが出力を待っている時間だ。12時間回しても、ほとんどは長めのsleepを設定しているだけだ。トークンを使い切ったことはない。月額$100のCodexでは10個のエージェントを同時に動かしてアセットパイプラインを狂ったようにコーディングしていたら、3日ほどで週間上限に達してアップグレードした。月額$200プランはクレジットが4倍なので、まだ壁にぶつかったことがなく、好きなだけ走らせられる
「最初はセルフホスティングだ。マシンを買って、オープンソースモデルをローカルで回せば、その後はトークンごとの費用は払わなくていい」と言うが、電気代は無料ではない
私の考えでは、結局はプライバシーにプレミアムを払うということであり、私にとってはそれだけの価値がある
なので私の場合、追加のハードウェア費用はない。買い替えだったからだ
この機材で自宅でAIモデルを動かすのは私が望んでいることで、必要ならOpenRouterを使うつもりだ
この記事の経済性の計算が正しいことは認める。だが、私たちが愛していた仕事をする機械の世話をする人に成り下がるという結果が、あまりにも悲しく感じられる。長期的には、こうした微妙な違いを気にすることに意味があるのかもしれない
私の人生で犯した過ちは――今では少し年を取り、実質的に修正が難しいのだが――仕事から十分な充足感を得続ければ、ほかの個人的な充足の欠如を埋め合わせられると信じていたことだ。好きで得意なことを通じて人を直接助けられるのをいつも楽しんでいて、それが伝統的な家庭生活を築くのが難しいという悲しみを防いでくれていた
いつでも新しいやり方でその喜びを見つけられると思っていたが、人間の努力の側へ再び傾き直さないのなら、自分の機材で自分のやり方でこうしたことを探るささやかな喜びですら十分ではないだろう
私たちが自ら作った世界は暗い。最近は、この中でさらに年を重ねていくのが怖い
6000を買えば7,000〜8,000ドルはかかるだろうが、再販価値はかなり高い可能性がある。3090もまだ希望小売価格の50%以上だ。LLMをやらなくても、「伝統的な」畳み込みニューラルネットワークのビジョンモデル学習には興味深い価値提案になる。96GBあればとてつもないバッチサイズを載せられる。アップグレードの最大の理由は、ワット当たり性能がほぼ2倍になった点だ。たとえば4000 Pro Blackwellは、同程度の性能で3090の半分ほどだ
人は資本支出がそのまま消えてなくなると考えがちだが、RAMで見たように、必要なら売れないと決めつけないほうがいい
計算してみたが、プライバシーを除けば割に合わなかった。それでもやった。[0]
0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
純粋に消費電力の観点で、損益分岐点はどこにあるのだろうか?
みんなどうやってこんなに金を使っているのか、どうしても分からない
月額 $60 の Cursor プランを自動モードで使ってきたが、週4日ずっと夜に計画とコーディングをさせても、込みの使用量に近づいたことすらない
いったい何をどう変えたらそんなに費用がかかるんだろう?
従量課金を使うとか、ほかの有料モデルや、より高いモードを有効にしているのだろうか? そういうものがなぜ必要なのか分からない。自分が取り組む課題では Auto の出力がめちゃくちゃ良くて、まだ十分なレベルでこなせない問題に出会ったことがない
会社でチーム参加面接をしていると、候補者が今の職場で月 $2K をトークンに使っていると言う。いったい何が起きたらそうなるのか想像できない
小さなスタートアップでは Max プランに月 $200 を使っていた。今は同じ使用量で Claude エンタープライズに月数千ドル前半を使っている
Anthropic はコンシューマー利用を補助しつつ、企業には無データ保持(ZDR)でかなり良いマージンを乗せているということだ
たとえば、ブラウザ、ログ、メトリクス、GitHub、CI ログなどにアクセスできるエージェントに新機能の実装を任せられる
Slack にバグレポートがいくつか来たらエージェントをいくつか追加で立ち上げる。PM が UI 修正を望めばエージェントを1つ立ち上げる。開発者の仕事の多くは必ずしも複雑ではなく、自分は最終 PR をレビューして同僚にするようにコメントを残せばいい。すると自分のエージェントが動いてコメントを反映し、新しいレビューを依頼する
その間、自分はより重い機能、設計ドキュメント、データ分析などに本当の注意を向けられる
個人用途では月 $300、仕事では数千ドルを使っている。エージェントは本当に 生産性を変え得る し、費用対効果は十分にある
会社としては、月数千ドルを払うか、それとも完全コストベースで年数十万ドルかかるエンジニアをもう1人採るかの話だ。現時点では少なくとも自分にとって 2倍のレバレッジ になっている
そういう人たちとのやり取りの文脈を見ると、かなり当惑する問いに対する最も単純な答えである可能性が高い。わざとクレジットを無駄遣いしない限り、月 $2K を使うのは可能にも見えない
自分が AI を使うときは、純粋にツールそのものだけを使い、コンテキストは自分が今作業している正確なコードだけだ。それが特定の問題解決に役立つかを見たいのであって、残りのコードベースは自分が十分理解しているから、それが良い答えか悪い答えかは判断できる
もっと低レベルなことでもエージェントはつまずく。さっきも、関数が bool の戻り値を要求しているというエラーを妙に読み違えまいとして、同じことを10通りの変形で試し続けていたので自分が止めた。スキルも問題を起こし得る。たとえば権限を与えると、自分が使っているライブラリのソースコードを読むのが大好きだ。それは底なし沼だ
「初期コストは高く、家で実際に動かせるモデルは先端研究所が出すものより弱いので、遅くて安いモデルに夜通し長時間タスクを回させて機材をずっと忙しくできるときだけ得になる。たいていの人はホームマシンにそこまで継続的に負荷をかけられないし、今日買ったハードウェアが1年後には悪い賭けに見えるかもしれない」のであれば、これは家での AI コーディングについての記事ではなく、家でのバイブコーディング についての記事だ
この文章には同意できない部分が多い。自分は今、GPU なしの 64GB RAM のホームコンピュータでこのコメントを書いていて、お金をほとんど使わずに AI コーディングをたくさんしている
Ollama で Gemma 4 26b(MoE)と Qwen 3 coder を動かしている。Github Copilot のコード補完を使い、Gemini と Mistral API の無料ティアも使っている。Gemini の有料 API アカウントもあるが、今は前払いなので、うっかり $1000 の請求を食らう心配はない。Gemini Flash Lite 3.1 でもかなり多くのことができる
これらのどれも、トークンを燃やして高価なスパゲッティコードの塊を作るようなものではないが、間違いなく AI コーディング ではある
これで「スロップ大砲」式のバイブコーディングはできないが、これは自分の個人コードであってスパゲッティになってほしくないので、そもそもバイブコーディングをしたいわけではない。自分が欲しいのは、Stack Overflow や Reddit の投稿をチャットボックスで即座に検索してくれること、TypeScript コードを実際に打ち込まなければならない物理的苦痛を減らしてくれること、そして曖昧な Docker 問題を延々とデバッグする無駄作業を減らしてくれることだ。自分はバックエンド開発者なのでフロントエンドへの忍耐はマイナスで、Docker は好きだが、いら立たしい問題や終わりのない癖には忍耐がない。このモデルはそれを非常にうまくやる
自分の知る最高のエンジニアの大半は、今年かなり大きくバイブコーディングへ移行した。今は可能性がずっと高まっている
DeepSeekプラットフォームAPIを直接使い、V4 Flashモデルを Opencode のようなハーネスにつなぐだけでも十分満足できる。ここ数週間でたぶん $10程度 しか使っていない
セルフホストモデルも見てみたが、今はハードウェアが高すぎる
最初の月は $5、その後は $10 で、いつでもキャンセルできる。新しいメールアドレスで割引を取り続けることもできる
それでも興味深い。その価格で何が得られるのだろう? コーディングだけなのか、それともたとえば 画像生成 も含まれるのか気になる
家ではみんなどう使っているのだろう? 月額 $20 の Claude プランでだいたい 5 つのアプリをコーディングしていて、もちろんレート制限に当たることはあるが、$3k分のトークン を燃やすには何をすればいいのかわからない
カスタマーサポートの問題の根本原因分析を毎時間回し、ログ分析のような日次自動化、KPI の追跡と実行のための週次・月次自動化もある
サイドプロジェクトを作るときは、1) スコープがかなり明確で、2) ユーザー対応や自動化が不要なので、月額 $20 プランの上限内に収めるのがずっと簡単だった。今は週次上限にしょっちゅう達し、Max プランが複数必要になっている
トークンを燃やす人たちは、複数のサブエージェント、50 個のロード済みスキル、40 個の MCP ツールみたいな構成を使っているようだ。そういうものが毎ターン文脈を埋めていく
家でやる個人プロジェクトには特によかった。会社の退屈な仕事を一日中やったあとでも、サイドプロジェクトの反復作業を処理しなくてよくなるので、ずっと作業したくなる
家で数千ドル分のトークンを燃やしている人の大半は、大きな スロップの山 を作っている可能性が高い
ほとんどのコーディングは、キーボード、IntelliSense、少しのコード生成テンプレートだけで素早くできる
なのに人々は AI が全部やってくれることに依存するようになり、いまやテックブロたちはドラッグディーラーのように搾り取り始めている
数か月前、NVIDIA DGX Spark に約 $4,000 を投じた。128GB の統合 RAM と NVIDIA GB10 チップを搭載している
RAM、複数の CPU コア、4TB の NVMe SSD のおかげで、GPU がなくてもかなり有能な ARM64 Linux マシンで、今のところは主にそういう使い方をしている。ただ、このハードウェアでうまく動く、特にコーディング向けで最も高性能なモデルが何なのか気になっている
推論エンジンは vLLM を使い続けていて、Opencode で 2 エージェントのループをつないでいる
Qwen3.6-35B-A3B のプランナーは毎秒 50〜55 トークンほどで快調に動き、Qwen3-Coder-30B-A3B-Instruct のコーダーは 30〜35 トークンほど出る。両方のエージェントを起動して待機状態にしておくと、RAM 使用量は 128GB 中およそ 112GB だ
なかなか良い。1980年代の MS-DOS ゲームを逆アセンブルさせながらあれこれ試しているが、この構成によく合う作業だ。世界最速ではないが、プランナーのコンテキストウィンドウを 256k トークン、コーディングエージェントを 128k にしておくと、かなり長いタスクリストでも互いにやり取りしながら文句なくこなしてくれる。唯一の実際の問題は、プロンプトをかなり絞ってもコーディングエージェントが LSD でもやったかのように幻覚を起こす点だ。ただ、計画エージェントがその幻覚をうまく見抜き、タスクをさらに細かく分割してコーダーに渡しているようだ
すごい。数か月後にレビュー機材を返却しなければならないときは悲しくなりそうだ
追加で Antirez の設定(https://github.com/antirez/ds4)で Deepseek v4 Flash も試したが、かなり優秀で、実行も本当に簡単だった。ただ Spark では毎秒 14 トークン程度とかなり遅い。それに Spark が 2 台ない限り、一度にこのモデル 1 つしか動かせないだろう。RAM を全部食い尽くす
私には、ハードウェア投資のほうが合っているように見える
コーディングを学んだのはほぼ24年前で、今でも新しいことを学び続けている。これまで、新しいことを学んだり作ったりするためにサブスクリプションモデルに依存しなければならなかったことはない
LLMとエージェントが、少なくとも今後数年間はコーディングとソフトウェア構築の基本ツールになるなら、Halo Strix PCのようなハードウェアに$2000〜3000投資するのは当然の選択に思える
2018年ごろの製品であるGTX1080tiが1枚あるが、使っておらず、すでに数年前に十分元は取れているので、今ではハードウェア費用は0だ
Gemma e4bマルチモーダル、qwen 3.5 8b、qwen 4b埋め込みモデルを十分うまく動かせる。LLMは毎秒40トークン以上出る
負荷時はコンセントで350Wを消費し、省電力時は3W、アイドル時は80Wだ。電気料金はkWhあたり£0.035で、英国基準では安いほうだ。家庭用バッテリーで負荷移行をしているためだ
出力トークン144k個で約1ペンス、理論上1時間かかる
無料のハードウェアと、通常の電気料金より約10倍安い電気料金があっても、はるかに強力なdeepseek v4 flashモデルを使うより、かろうじて少し安いだけだ
Anthropicに対する最近のホワイトハウスの動きと、次世代の優れたモデルをきちんと動かすには128GB超が必要になるかもしれないという現実を合わせて見ると、将来にとって良い兆候ではない
ローカルをけなしているわけではない。私もそうしたユーザーの一人で、サブスクも併用しているが、トレードオフは冷静に見る必要がある
ただ、それは生産性をコード行数で測るような感じがする。私の仕事では、どのサブスクからも得をしているとは感じていない
もちろん、1回のプロンプトで退屈なCRUDアプリ全体を新規作成することはできないが、まあ仕方ない
コーディングにbrain -> workerアプローチを使い始めた
BrainはClaudeサブスクの高価で賢いモデルだ。使えるときはFable 5、今はOpusを使っている
Workerはローカルモデル(qwen3.6:46B)で、36GB GPU上にOpencode + Ollamaでデプロイした
Brainは分析・設計とタスク生成を担当する。タスクはworkerが処理できるよう、単純で明確でなければならない。Workerがコーディングし、Brainが検証したうえで、必要なら修正タスクを作る。現在の修正対タスク比率はおよそ1:20だ
家にGPUがなければ、qwen3.6はクラウドでもかなり安い
好奇心で作った実験的な構成に近いが、予想以上によく動いている。今ではコーディングエージェント3つを4日間連続で走らせられる。どうやってこの構成にたどり着いたかはここで説明している: https://news.ycombinator.com/item?id=48520757
では、Opus 4.6に準ずるものをローカルで動かせるのだろうか? 相反する話を聞き続けている
$10k使ってそれが可能なら、サブスクを解約するつもりだ。問題は、自分で確かめるためにその金額を使いたくはないということだ
現実的には、データセンターのマージンを守るため、消費者が単一構成でその程度のVRAMを回せるセットアップは提供されていない。Appleは以前は可能だったがやめており、その機材は今ではeBayで1台$20k以上で取引されている
3090/4090/5090/6000シリーズのカードでも非常に強力なモデルを動かすことはできる。だが「先端モデル級」を望むなら、新品ベースで最低でも約**$22k**は投資しなければならない。中古なら初期費用を大幅に下げて自前サーバーを組めるかもしれないが、電力消費は4〜6倍以上になる可能性が高い
現時点では一般人に可能なことではない
ただ、今そのようなマシンをゼロから組むのは$100K未満では不可能だ。もっとも、今は自律性に価格を付けること自体が難しい時期でもある