1 ポイント 投稿者 GN⁺ 3 시간 전 | 1件のコメント | WhatsAppで共有
  • 個人向けAIコーディングのコストを下げる選択肢は、セルフホスティング、オープンソースモデルAPIの利用、フロンティアサブスクリプションの最適化の3つに分かれる
  • セルフホスティングは機材を購入してローカルでオープンソースモデルを動かし、その後はトークン単価の費用を払わないが、初期費用が大きく、自宅で動かせるモデルはフロンティア研究所のモデルより弱い
  • オープンソースモデルをAPI料金で借りれば、GPU構成に数千ドルを固定せずに済み、性能を引き出すための作業を避けられ、翌月にはより安い、あるいはより良い選択肢へ切り替えやすい
  • OpenAIとAnthropicのフロンティアサブスクリプションは月約400ドルで、定価ベースでは約2,800ドル分のAPI利用量を得られるが、大規模なAIネイティブワークフローでは含まれるトークンをすぐに消費してしまう
  • 最も相性が良い方法は、フロンティアサブスクリプションを難しい思考と仕様作成に使い、オープンソースAPIを小さく機械的な作業に使う混合戦略である

3つの選択肢

  • 自宅で会社レベルの支出をせずにAIコーディングを行う方法は3つあり、どの方式が合うかは、今後1年のハードウェアとモデルのリリースをどれだけ信頼するかに大きく左右される
  • セルフホスティングは自分で機材を購入し、オープンソースモデルをローカルで実行する方式で、その後はトークン単価の費用がかからない
    • 初期費用が大きく、自宅で実際に動かせるモデルはフロンティア研究所が出すモデルより弱い
    • 遅くて安価なモデルが一晩中作業する長時間実行ジョブによって機材を継続的に活用できる場合にのみ、費用対効果がある
    • ほとんどの人にとって、自宅の機材をそのように高負荷で維持し続けるのは難しく、今日買ったハードウェアが1年後には悪い選択に見える可能性がある
  • オープンソースモデルAPIの利用は、同じオープンソースモデルを提供事業者からAPI料金で借りる方式で、ほとんどの人に合う選択である
    • GPU構成1台に数千ドルを投じる必要がなく、オープンモデルで長時間実行の性能を引き出す作業を避けられる
    • 翌月にはより安い、またはより良い選択肢へ簡単に切り替えられ、機材を転売する必要もない
    • OpenRouter のようなサービスは、切り替えをほぼ1行の変更だけで済むものにしてくれる
  • フロンティアサブスクリプションの最適化は、OpenAIとAnthropicのサブスクリプションを最大限活用する方式である
    • 月約400ドルの料金プランで、定価ベースでは約2,800ドル分のAPI利用量を得られるため、上限に達するまでは大きな割引効果がある
    • プランは利用量が計測され、大規模なAIネイティブワークフローでは含まれるトークンをすぐに消費してしまう
    • 人が直接主導する作業にはよく合うが、一日中動き続けるエージェントのエンジンとしては不足する

最もうまく機能した組み合わせ

  • 最もうまく機能した方法は、フロンティアサブスクリプションとオープンソースモデルAPIを併用する組み合わせである
  • フロンティアサブスクリプションをいくつか、難しい思考と仕様作成のために維持し、小さく機械的な作業はオープンソースモデルのAPI料金で処理する
  • 仕様主導開発を活用すれば、高価なモデルが計画を作り、安価なモデルがその計画を埋める構造になる
  • この方法をうまく実行すれば、エンジニア20人規模のチームが1か月で出す成果物を約1,000ドルで作れる

1件のコメント

 
GN⁺ 3 시간 전
Hacker Newsの意見
  • 停滞期に来た気がしていて、次の段階にどう上がればいいのかわからない。今は月額$100のCodexプランで5.5-xhighを使い続けているが、それで十分に思える
    次にやることを考え、チャットセッションで実装直前まで依頼内容を具体化してから、Codexにコミット単位の作業を処理させ、ローカル開発サーバーで簡単に確認する。必要なら修正を依頼し、そのあとコミットさせ、仕様ベースで次のステップを提案してもらう。どうせ時々サンドボックス外の要求を「承認」しなければならないこともある
    一晩中回すほどの作業はまだ見つかっていない。大きな計画を一度にやらせることもできるだろうが、中間成果物を少し違うものにしたくなることが多く、無駄に感じる
    次は、Codex GUIの要求をトンネリングできるマシンVMのようなものを調べる必要がありそうだ。自分のMac全体に「危険な」アクセス権を与えたくはない
    サイドプロジェクトでみんな何をしているからそんなに早くトークンを燃やし、月額$200のサブスクを2つに加えて追加トークン課金まで必要になるのか理解できない

    • それは問題をエンジニアのように扱っていて、「インフルエンサー」や「10倍開発者」のように扱っていないからだ。エンジニアリングで解決すべき問題として見ていて、AIはその道具にすぎないという考え方だ。自分の経験では、エンジニアが何時間も無人でAIコード生成を必要とする問題はほとんどない
      AIに何時間も延々と回させるのが少しでも理にかなうケースは、ひとつしか見つかっていない。5つのファームウェアイメージが入ったウィジェットをリバースエンジニアリングしていて、バイナリをダンプし、AIに相互に絡み合ったファームウェアプロジェクト群をデコンパイルしてリバースエンジニアリングさせた。複雑だが範囲は非常によく定義された作業だ。難しい仕事というより量が多い仕事で、成果物はCのように見えるテキストの塊で、情報提供用にすぎず直接コンパイルはできない。出力品質は入力アセンブリに強く依存し、全体の成果物はコード形式のドキュメントだ
      リスクがゼロなので、AIに無人で好きなだけ処理させても抵抗がない。それでもAIがアセンブリを認識できるCプロジェクトの形に叩き直してくれると、自分で読んで推論するのがずっと楽になる。簡単に勝てる案件だと思う
    • 非専門家がAIで何かを作る動画をかなり見たが、12時間分の作業を燃やす人たちは文字どおり出力を読んでもおらず、何をしているのかも理解していない
      プログラムを作ってくれと頼んだ直後、できあがるとすぐAIに実行方法を聞くような感じだ。バグが出たらAIに何が悪いのかを聞くか、全体を捨ててモデルやハーネスを変えてやり直す
      例: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
      あなたが説明した専門的な作業フローとはまったく違う。消費者向けのおもちゃに近い
    • Claudeは月額$20プランに下げ、今はほぼウェブチャット専用で使っている。コーディングはClaude CodeでDeepSeekをAPI課金で設定して使っている
      320,000,000トークンで約$4.8使った。Claudeプランを使っていたときは、価格を正当化するためにLLMが常に何かしていなければならないというプレッシャーがあった。DeepSeekに変えてからは、もうそう考えなくなった。サブスクを使っていなくても罪悪感がないし、上限も心配しない。払えばいいだけだからだ。特に時間単位の制限がないので、並列実行では差が大きく感じられる
    • 「次に何をするかを考える」というのが、実際に仕事をしようとする誰もが見つける本当のボトルネックだ。システムが自分の思考速度についてきているなら、うまくいっているということだ
      トークンをもっと買ったからといって、思考能力が「レベルアップ」するわけではない。より自動化されたものを回している人たちは、自分の思考より先を走ってしまっている可能性が高く、結局それが足かせになるだろう
    • 月額$200のCodexで、子ども向けのゲームを楽しみと好奇心から作っている。開発者で、ゲームは遊んだことがあるがゲーム開発はしたことがない。一晩中動かす作業もあるが、ほとんどは「自分の3Dアセットパイプラインを見守り、何かを追加するのに時間を使う」ことだ
      RTX 5090で Trellis2 -> ultrashapes -> Trellis2 -> リギング接続とアニメーション設定を回している
      ただ、その作業の99%はCodexが出力を待っている時間だ。12時間回しても、ほとんどは長めのsleepを設定しているだけだ。トークンを使い切ったことはない。月額$100のCodexでは10個のエージェントを同時に動かしてアセットパイプラインを狂ったようにコーディングしていたら、3日ほどで週間上限に達してアップグレードした。月額$200プランはクレジットが4倍なので、まだ壁にぶつかったことがなく、好きなだけ走らせられる
  • 「最初はセルフホスティングだ。マシンを買って、オープンソースモデルをローカルで回せば、その後はトークンごとの費用は払わなくていい」と言うが、電気代は無料ではない
    私の考えでは、結局はプライバシーにプレミアムを払うということであり、私にとってはそれだけの価値がある

    • ちょうど新しいノートPCが必要で、興味のある別のものを再コンパイルするのにも十分速い中古のM1 Maxを友人からかなり安く買った
      なので私の場合、追加のハードウェア費用はない。買い替えだったからだ
      この機材で自宅でAIモデルを動かすのは私が望んでいることで、必要ならOpenRouterを使うつもりだ
      この記事の経済性の計算が正しいことは認める。だが、私たちが愛していた仕事をする機械の世話をする人に成り下がるという結果が、あまりにも悲しく感じられる。長期的には、こうした微妙な違いを気にすることに意味があるのかもしれない
      私の人生で犯した過ちは――今では少し年を取り、実質的に修正が難しいのだが――仕事から十分な充足感を得続ければ、ほかの個人的な充足の欠如を埋め合わせられると信じていたことだ。好きで得意なことを通じて人を直接助けられるのをいつも楽しんでいて、それが伝統的な家庭生活を築くのが難しいという悲しみを防いでくれていた
      いつでも新しいやり方でその喜びを見つけられると思っていたが、人間の努力の側へ再び傾き直さないのなら、自分の機材で自分のやり方でこうしたことを探るささやかな喜びですら十分ではないだろう
      私たちが自ら作った世界は暗い。最近は、この中でさらに年を重ねていくのが怖い
    • 現世代のカードには少なくとも5年の寿命は期待できると思う。3090も24GB RAMがあるおかげで、今でも十分使える。というのも、ここ数年ホーム機械学習の制約要因はまさにメモリだったからだ
      6000を買えば7,000〜8,000ドルはかかるだろうが、再販価値はかなり高い可能性がある。3090もまだ希望小売価格の50%以上だ。LLMをやらなくても、「伝統的な」畳み込みニューラルネットワークのビジョンモデル学習には興味深い価値提案になる。96GBあればとてつもないバッチサイズを載せられる。アップグレードの最大の理由は、ワット当たり性能がほぼ2倍になった点だ。たとえば4000 Pro Blackwellは、同程度の性能で3090の半分ほどだ
      人は資本支出がそのまま消えてなくなると考えがちだが、RAMで見たように、必要なら売れないと決めつけないほうがいい
    • 太陽光があれば、実際にはある程度ほぼ無料に近くなることもあり得る。だから昼間はプライベートAI計算のほうが実質的に安くなるのかもしれない
    • ハードウェア費用に余計にお金を払うのも追加コストだ
      計算してみたが、プライバシーを除けば割に合わなかった。それでもやった。[0]
      0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
    • 「電気は無料ではない」という点には、興味深い思考実験がある。AIなら1日で作るものを、私が丸1日かけて作らなければならないとしたら、より多く電気を使うのはどちらだろうか?
      純粋に消費電力の観点で、損益分岐点はどこにあるのだろうか?
  • みんなどうやってこんなに金を使っているのか、どうしても分からない
    月額 $60 の Cursor プランを自動モードで使ってきたが、週4日ずっと夜に計画とコーディングをさせても、込みの使用量に近づいたことすらない
    いったい何をどう変えたらそんなに費用がかかるんだろう?
    従量課金を使うとか、ほかの有料モデルや、より高いモードを有効にしているのだろうか? そういうものがなぜ必要なのか分からない。自分が取り組む課題では Auto の出力がめちゃくちゃ良くて、まだ十分なレベルでこなせない問題に出会ったことがない
    会社でチーム参加面接をしていると、候補者が今の職場で月 $2K をトークンに使っていると言う。いったい何が起きたらそうなるのか想像できない

    • Claude エンタープライズプランはコンシューマープランより 30〜40 倍高い
      小さなスタートアップでは Max プランに月 $200 を使っていた。今は同じ使用量で Claude エンタープライズに月数千ドル前半を使っている
      Anthropic はコンシューマー利用を補助しつつ、企業には無データ保持(ZDR)でかなり良いマージンを乗せているということだ
    • エージェントに広いアクセス権と効果的なフィードバックループを与えられるなら、自分は方向性だけ示して最終成果物だけ確認すればいい
      たとえば、ブラウザ、ログ、メトリクス、GitHub、CI ログなどにアクセスできるエージェントに新機能の実装を任せられる
      Slack にバグレポートがいくつか来たらエージェントをいくつか追加で立ち上げる。PM が UI 修正を望めばエージェントを1つ立ち上げる。開発者の仕事の多くは必ずしも複雑ではなく、自分は最終 PR をレビューして同僚にするようにコメントを残せばいい。すると自分のエージェントが動いてコメントを反映し、新しいレビューを依頼する
      その間、自分はより重い機能、設計ドキュメント、データ分析などに本当の注意を向けられる
      個人用途では月 $300、仕事では数千ドルを使っている。エージェントは本当に 生産性を変え得る し、費用対効果は十分にある
      会社としては、月数千ドルを払うか、それとも完全コストベースで年数十万ドルかかるエンジニアをもう1人採るかの話だ。現時点では少なくとも自分にとって 2倍のレバレッジ になっている
    • その人たちは、単に自分のすごいプロンプト力を見せびらかしたいだけかもしれない。プライドのあるエンジニアが月 $2K 未満しか使っていない姿を見せるものか、みたいな
      そういう人たちとのやり取りの文脈を見ると、かなり当惑する問いに対する最も単純な答えである可能性が高い。わざとクレジットを無駄遣いしない限り、月 $2K を使うのは可能にも見えない
    • 同意する。とはいえ、そういう人たちのかなりの割合が、自分で設定した カスタム指示/ルール/スキル/機能 の話もよくしている。そうなると始める前からコンテキストウィンドウをかなり食ってしまう
      自分が AI を使うときは、純粋にツールそのものだけを使い、コンテキストは自分が今作業している正確なコードだけだ。それが特定の問題解決に役立つかを見たいのであって、残りのコードベースは自分が十分理解しているから、それが良い答えか悪い答えかは判断できる
    • いくつかある。1) プロンプトを十分に精密に書かず、範囲を絞れないと、エージェントがコードベース全体をなめて同じ場所を繰り返し見た挙げ句、行き詰まることがある。2) 出力を確認しなくてもたいていは大丈夫だが、たまに理解できずにゴミを作り、コードを読んで問題を把握しないとプロンプトだけでは抜け出せない。自動のまま放っておくと トークンを燃やす
      もっと低レベルなことでもエージェントはつまずく。さっきも、関数が bool の戻り値を要求しているというエラーを妙に読み違えまいとして、同じことを10通りの変形で試し続けていたので自分が止めた。スキルも問題を起こし得る。たとえば権限を与えると、自分が使っているライブラリのソースコードを読むのが大好きだ。それは底なし沼だ
  • 「初期コストは高く、家で実際に動かせるモデルは先端研究所が出すものより弱いので、遅くて安いモデルに夜通し長時間タスクを回させて機材をずっと忙しくできるときだけ得になる。たいていの人はホームマシンにそこまで継続的に負荷をかけられないし、今日買ったハードウェアが1年後には悪い賭けに見えるかもしれない」のであれば、これは家での AI コーディングについての記事ではなく、家でのバイブコーディング についての記事だ
    この文章には同意できない部分が多い。自分は今、GPU なしの 64GB RAM のホームコンピュータでこのコメントを書いていて、お金をほとんど使わずに AI コーディングをたくさんしている
    Ollama で Gemma 4 26b(MoE)と Qwen 3 coder を動かしている。Github Copilot のコード補完を使い、Gemini と Mistral API の無料ティアも使っている。Gemini の有料 API アカウントもあるが、今は前払いなので、うっかり $1000 の請求を食らう心配はない。Gemini Flash Lite 3.1 でもかなり多くのことができる
    これらのどれも、トークンを燃やして高価なスパゲッティコードの塊を作るようなものではないが、間違いなく AI コーディング ではある

    • 自分も同じ感覚だ。64GB RAM と 24GB 5090 を積んだマシンで Qwen 3.6 35B A3B を使っている。運よく、人々が向こう3年分のコンピュータをバカみたいに先行予約して全部を台無しにする15秒ほど前に Alienware 16 Area51 を買えた
      これで「スロップ大砲」式のバイブコーディングはできないが、これは自分の個人コードであってスパゲッティになってほしくないので、そもそもバイブコーディングをしたいわけではない。自分が欲しいのは、Stack Overflow や Reddit の投稿をチャットボックスで即座に検索してくれること、TypeScript コードを実際に打ち込まなければならない物理的苦痛を減らしてくれること、そして曖昧な Docker 問題を延々とデバッグする無駄作業を減らしてくれることだ。自分はバックエンド開発者なのでフロントエンドへの忍耐はマイナスで、Docker は好きだが、いら立たしい問題や終わりのない癖には忍耐がない。このモデルはそれを非常にうまくやる
    • しばらく回し続けられるタスクは確かにある。バイブコーディング と人間参加型のコーディングルーチンの区別は、ワークフローの検証が進み、モデルがより賢く安くなるにつれて曖昧になっていくと思う
      自分の知る最高のエンジニアの大半は、今年かなり大きくバイブコーディングへ移行した。今は可能性がずっと高まっている
  • DeepSeekプラットフォームAPIを直接使い、V4 Flashモデルを Opencode のようなハーネスにつなぐだけでも十分満足できる。ここ数週間でたぶん $10程度 しか使っていない
    セルフホストモデルも見てみたが、今はハードウェアが高すぎる

    • Opencode Go を使いつつ DeepSeek Flash だけを使えば、さらに長持ちしそう。トークン換算では $65 相当だが月額課金なので使い切る必要があり、利用量が少ないなら DeepSeek を直接呼ぶほうが安い
      最初の月は $5、その後は $10 で、いつでもキャンセルできる。新しいメールアドレスで割引を取り続けることもできる
    • それは DeepSeek を直接使うという意味? 私の理解では確認はしていないが、ほかのAI事業者が DeepSeek モデルの一部をもっと安く提供していた
      それでも興味深い。その価格で何が得られるのだろう? コーディングだけなのか、それともたとえば 画像生成 も含まれるのか気になる
  • 家ではみんなどう使っているのだろう? 月額 $20 の Claude プランでだいたい 5 つのアプリをコーディングしていて、もちろんレート制限に当たることはあるが、$3k分のトークン を燃やすには何をすればいいのかわからない

    • ケースバイケースだが、自動化 は月額 $100〜$200 のプランをすぐ食い尽くし、トークンだけで数千ドル分を燃やす
      カスタマーサポートの問題の根本原因分析を毎時間回し、ログ分析のような日次自動化、KPI の追跡と実行のための週次・月次自動化もある
      サイドプロジェクトを作るときは、1) スコープがかなり明確で、2) ユーザー対応や自動化が不要なので、月額 $20 プランの上限内に収めるのがずっと簡単だった。今は週次上限にしょっちゅう達し、Max プランが複数必要になっている
    • 私も同じ。月額 $20 で十分で、毎日コーディングに使っている
      トークンを燃やす人たちは、複数のサブエージェント、50 個のロード済みスキル、40 個の MCP ツールみたいな構成を使っているようだ。そういうものが毎ターン文脈を埋めていく
    • 私も似たようなものだが、まだかなり自分で考えていて、AI は自分でやりたくない退屈な作業を加速するためにだけ使っているので、上限に引っかかりにくいのだと思う
      家でやる個人プロジェクトには特によかった。会社の退屈な仕事を一日中やったあとでも、サイドプロジェクトの反復作業を処理しなくてよくなるので、ずっと作業したくなる
      家で数千ドル分のトークンを燃やしている人の大半は、大きな スロップの山 を作っている可能性が高い
    • $3k分のトークン を燃やすには何をするのか」への短い答えは、スロップを作ることだ
      ほとんどのコーディングは、キーボード、IntelliSense、少しのコード生成テンプレートだけで素早くできる
      なのに人々は AI が全部やってくれることに依存するようになり、いまやテックブロたちはドラッグディーラーのように搾り取り始めている
  • 数か月前、NVIDIA DGX Spark に約 $4,000 を投じた。128GB の統合 RAM と NVIDIA GB10 チップを搭載している
    RAM、複数の CPU コア、4TB の NVMe SSD のおかげで、GPU がなくてもかなり有能な ARM64 Linux マシンで、今のところは主にそういう使い方をしている。ただ、このハードウェアでうまく動く、特にコーディング向けで最も高性能なモデルが何なのか気になっている

    • 今 Ars に載せる Spark 関連の記事のために調査とテストを進めていて、Qwen3.6-35B-A3B(nvidia/Qwen3.6-35B-A3B-NVFP4) を計画エージェント、Qwen3-Coder-30B-A3B-Instruct の FP8 版(Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8)をコーディングエージェントとして使う 2つの LLM エージェント構成 に偶然たどり着いた
      推論エンジンは vLLM を使い続けていて、Opencode で 2 エージェントのループをつないでいる
      Qwen3.6-35B-A3B のプランナーは毎秒 50〜55 トークンほどで快調に動き、Qwen3-Coder-30B-A3B-Instruct のコーダーは 30〜35 トークンほど出る。両方のエージェントを起動して待機状態にしておくと、RAM 使用量は 128GB 中およそ 112GB だ
      なかなか良い。1980年代の MS-DOS ゲームを逆アセンブルさせながらあれこれ試しているが、この構成によく合う作業だ。世界最速ではないが、プランナーのコンテキストウィンドウを 256k トークン、コーディングエージェントを 128k にしておくと、かなり長いタスクリストでも互いにやり取りしながら文句なくこなしてくれる。唯一の実際の問題は、プロンプトをかなり絞ってもコーディングエージェントが LSD でもやったかのように幻覚を起こす点だ。ただ、計画エージェントがその幻覚をうまく見抜き、タスクをさらに細かく分割してコーダーに渡しているようだ
      すごい。数か月後にレビュー機材を返却しなければならないときは悲しくなりそうだ
      追加で Antirez の設定(https://github.com/antirez/ds4)で Deepseek v4 Flash も試したが、かなり優秀で、実行も本当に簡単だった。ただ Spark では毎秒 14 トークン程度とかなり遅い。それに Spark が 2 台ない限り、一度にこのモデル 1 つしか動かせないだろう。RAM を全部食い尽くす
    • https://www.canirun.ai/?status=tight がその質問に答えてくれるかもしれない
    • Deepseek v4 flash はサイズのわりに驚くほど強力で、そのハードウェアでもよく動くことで知られている
    • それをまだ知らないのに「そうやって使っている」と言うなら、記事は「数か月前、おもちゃに $4kを無駄にした」で始めるべきだろう
    • DeepSeek V4 Flash は、説明されているハードウェア上でよく動く非常に有能なコーディングモデルだ。特にローカル利用向けに最適化された版を探すとよい
  • 私には、ハードウェア投資のほうが合っているように見える
    コーディングを学んだのはほぼ24年前で、今でも新しいことを学び続けている。これまで、新しいことを学んだり作ったりするためにサブスクリプションモデルに依存しなければならなかったことはない
    LLMとエージェントが、少なくとも今後数年間はコーディングとソフトウェア構築の基本ツールになるなら、Halo Strix PCのようなハードウェアに$2000〜3000投資するのは当然の選択に思える

    • 捨てられたハードウェアで「無料」の選択肢があるのではないかとも思った
      2018年ごろの製品であるGTX1080tiが1枚あるが、使っておらず、すでに数年前に十分元は取れているので、今ではハードウェア費用は0だ
      Gemma e4bマルチモーダル、qwen 3.5 8b、qwen 4b埋め込みモデルを十分うまく動かせる。LLMは毎秒40トークン以上出る
      負荷時はコンセントで350Wを消費し、省電力時は3W、アイドル時は80Wだ。電気料金はkWhあたり£0.035で、英国基準では安いほうだ。家庭用バッテリーで負荷移行をしているためだ
      出力トークン144k個で約1ペンス、理論上1時間かかる
      無料のハードウェアと、通常の電気料金より約10倍安い電気料金があっても、はるかに強力なdeepseek v4 flashモデルを使うより、かろうじて少し安いだけだ
    • そうでもあり、そうでもない。ハードウェアにはロックイン効果がある。128GBの共有メモリには満足しているが、私が買った時より今のほうが高くなっているようで少し心配だ
      Anthropicに対する最近のホワイトハウスの動きと、次世代の優れたモデルをきちんと動かすには128GB超が必要になるかもしれないという現実を合わせて見ると、将来にとって良い兆候ではない
      ローカルをけなしているわけではない。私もそうしたユーザーの一人で、サブスクも併用しているが、トレードオフは冷静に見る必要がある
    • $3kでは先端モデル級の性能は得られない。GPUだけを買うのではなく、PC全体を買う費用として割り振るなら、そこそこ使える性能をようやく得られる程度だ
    • 3千ドルではなく1万ドルを考えるべきだ
    • 私も似た考えだ。1年ほど前に買った安価な16GB VRAMカードを使っているが、自宅でできることよりはるかに高い毎秒トークン数を、お金を払って買えるというのは理解している
      ただ、それは生産性をコード行数で測るような感じがする。私の仕事では、どのサブスクからも得をしているとは感じていない
      もちろん、1回のプロンプトで退屈なCRUDアプリ全体を新規作成することはできないが、まあ仕方ない
  • コーディングにbrain -> workerアプローチを使い始めた
    BrainはClaudeサブスクの高価で賢いモデルだ。使えるときはFable 5、今はOpusを使っている
    Workerはローカルモデル(qwen3.6:46B)で、36GB GPU上にOpencode + Ollamaでデプロイした
    Brainは分析・設計とタスク生成を担当する。タスクはworkerが処理できるよう、単純で明確でなければならない。Workerがコーディングし、Brainが検証したうえで、必要なら修正タスクを作る。現在の修正対タスク比率はおよそ1:20だ
    家にGPUがなければ、qwen3.6はクラウドでもかなり安い
    好奇心で作った実験的な構成に近いが、予想以上によく動いている。今ではコーディングエージェント3つを4日間連続で走らせられる。どうやってこの構成にたどり着いたかはここで説明している: https://news.ycombinator.com/item?id=48520757

  • では、Opus 4.6に準ずるものをローカルで動かせるのだろうか? 相反する話を聞き続けている
    $10k使ってそれが可能なら、サブスクを解約するつもりだ。問題は、自分で確かめるためにその金額を使いたくはないということだ

    • 先端モデル級を望むなら、経済的に合理的な選択肢はOpenRouterか、望みの先端モデルへの直接サブスクだ
      現実的には、データセンターのマージンを守るため、消費者が単一構成でその程度のVRAMを回せるセットアップは提供されていない。Appleは以前は可能だったがやめており、その機材は今ではeBayで1台$20k以上で取引されている
      3090/4090/5090/6000シリーズのカードでも非常に強力なモデルを動かすことはできる。だが「先端モデル級」を望むなら、新品ベースで最低でも約**$22k**は投資しなければならない。中古なら初期費用を大幅に下げて自前サーバーを組めるかもしれないが、電力消費は4〜6倍以上になる可能性が高い
    • $10kではOpusやSonnetにはまったく届かない
      現時点では一般人に可能なことではない
    • 残念ながら、Opus 4.6に準ずるものはまだローカルでは動かせない。最も近くまで行けるのは、おおよそSonnet 3.7レベルだ
    • $8k使って、2〜3倍遅いSonnetに近い程度は得られた。Spark 2台でdeep seek v4 flashを動かす構成だ
    • 一部のベンチマークでは、Kimi K2.6がOpus 4.6と誤差範囲内にあるとされており、RTX6000を8枚使えば動かせる
      ただ、今そのようなマシンをゼロから組むのは$100K未満では不可能だ。もっとも、今は自律性に価格を付けること自体が難しい時期でもある