1 ポイント 投稿者 GN⁺ 3 시간 전 | 1件のコメント | WhatsAppで共有
  • ローカル推論コストは電気代よりもデバイス価格の影響が大きく、M5 Max MacBook Pro 64GBモデルは $4,299 として計算
  • 負荷時のApple SiliconノートPCは 50〜100W を消費し、kWhあたり $0.20 基準でも電気代は1日約 $0.48 にとどまる
  • Gemma4:31b は M5 Max で毎秒 10〜40トークン が観測され、100万トークンあたりのコストは約 $0.40〜$4.79 まで開く
  • OpenRouter の Gemma4 31b は100万トークンあたり約 $0.38〜$0.50 で、非常に楽観的な条件でのみ MacBook Pro Max と同程度になる
  • ローカル推論は概ね OpenRouter より高価で遅く、会計上は Pro Max のコストを100万トークンあたり約 3倍 と見積もるのが妥当

ローカル推論コストの計算

  • 電気料金は Northern Virginia の最近の請求書では kWh あたり $0.18 で、計算では kWh あたり $0.20 に引き上げて見積もっている
  • EIAの2025年米国住宅向け平均電気料金 は kWh あたり $0.1730
  • Apple Silicon ノートPCが負荷時に 50〜100W を消費する場合、電気代は1時間あたり $0.009〜$0.018 で、おおむね1時間あたり $0.02 として計算できる
  • 推論を100%で回し続けても電気代は1日 $0.48 程度
  • 14インチ M5 Max MacBook Pro 64GBモデルは Apple のWebサイト基準で $4,299 で、64GB は Gemma 4 31b のようなモデルを動かせる水準とされる
  • ハードウェア寿命を3年、5年、10年で分けると、年間コストはそれぞれ $1,433、$860、$430
  • 1時間あたりのハードウェアコストは、3年基準で $0.16358、5年基準で $0.09815、10年基準で $0.04908 と計算される
  • 一般的な使用では 5年 が妥当な寿命推定で、7年や10年も可能だが、最大推論負荷では3年も妥当な推定になりうる

トークン単価とOpenRouterとの比較

  • ローカルモデルのコストで重要な変数は、1時間あたりに生成できる トークン数 であり、M5 Max のテストでは Gemma4:31b のようなモデルは毎秒 10〜40 トークンの範囲だった
  • 毎秒10トークンなら1時間あたり36,000トークンで、寿命3〜10年・kWh あたり $0.18 基準では100万トークンあたりのコストは $1.61〜$4.79 と計算される
  • 毎秒40トークンなら1時間あたり144,000トークンで、100万トークンあたりのコストは $0.40〜$1.20 まで下がる
  • Apple Silicon では電気代より ハードウェアコスト が全体コストを左右する
  • OpenRouter の Gemma4 31b の価格は100万トークンあたり約 $0.38〜$0.50
  • 50W・毎秒40トークン・10年使用という楽観的な条件では、MacBook Pro Max は OpenRouter と同程度のコストまで下がる
  • 100W・毎秒10トークン・3年使用という悲観的な条件では、MacBook Pro Max は OpenRouter より 10倍 高い
  • 会計上の観点では、Pro Max のローカル推論コストは OpenRouter 比で100万トークンあたり約 3倍 と見る推定が妥当
  • ほとんどの場合、コストより 推論速度 のほうが大きな変数であり、ローカル推論はクラウド推論より遅い
  • OpenRouter の一部の Gemma 4 提供元は毎秒 60〜70 トークンに達し、Pro Max で観測された毎秒 10〜20 トークンより 3〜7倍 速い
  • 業務用ノートPCを使う従業員の給与コストは、ローカルで生成可能なトークンコストより約 1000倍 大きいため、この文脈では Anthropic にコストを払うほうが合理的
  • コンシューマー向けデバイスで Anthropic Sonnet に近い性能のモデルを動かせる点は、依然として驚くべき結果だ

1件のコメント

 
GN⁺ 3 시간 전
Hacker Newsのコメント
  • この分析はあまり良くない。あらゆる値をずっと切り上げて計算しているからだ。電気料金を10%高めに見積もり、消費電力レンジでは低い値の2倍である上限を選び、そのうえで膨らませた電気料金を掛けている。
    しかも、新しく買ったMacを推論専用に24時間フル負荷で回す前提になっている。なぜそうしなければならないのか? Apple Siliconは速いが、筆者自身も指摘しているように毎秒10〜40トークン程度で、悪くはないにせよ、もともとその用途向けではない。
    データセンターは家庭用の電気料金を払わず、電力効率の良いチップを使い、Mac向けに設計されていないチップを使う。Apple Siliconは24/7/365でトークンを吐き続けるわけではないし、その目的だけのために新たにハードウェアを買わないのであれば、かなり悪くない。必要な作業にMac Studioを週に数回使いつつ、tailnet越しにollamaを「ほぼ無料で」動かせる。Mac Studioを液冷H100クラスターのように使おうとしない限り採算は合うし、マルチテナントのハードウェアと安い電力でワット当たりトークン数が高いほうがほぼ常に勝つのは当然だ

    • 最も楽観的な設定で全部を低く見積もっても 100万トークンあたり$0.40 になり、OpenRouterでは同じモデルが $0.38/100万トークン だ
    • 記事そのものがおかしい。OpenRouterを 汎用コンピュータ として使うことはできないのに、なぜコンピュータ全体と単一目的のSaaSを比較するのか
    • 毎秒40トークンという数字がどこから来たのかわからない。M5 Max 128GBでGemma 4 31Bを動かすと、毎秒95〜100トークン を見たことがある。同じプロンプトでClaude Opus 4.5より速かった実験もある
    • 実際には、トークンを24時間生成するとして計算するのが最善ケースだ。1日8時間の実使用で計算すると、ハードウェア固定費が依然として予算の最大部分を占める一方、生成トークンは1/3になるので、トークン当たりコスト は3倍になる
  • 私の読み違いでなければ、この計算はトークン生成コストに ノートPC全体の価格 を入れている。お金を払った見返りとして、LLMの出力だけでなくノートPC自体も受け取っている点が抜けているようだ。
    このマシンを暗い隅に置いて、トークンを吐くサーバーとしてだけ動かすつもりなら、ノートPCはこの目的には本当にひどい技術選択だ。だがノートPCをノートPCとして使うつもりなら、ノートPCが手に入ることは、ないより大きな利点だ。
    さらに プライバシー、検閲からの自由、使うモデルへのコントロールも得られる。特定モデルの性質に合わせてワークフローを作った3か月後に、そのモデルが突然消えるような事態を避けられる

    • より良い指標は、ローカルモデルを動かすために必要なノートPCと、どうせ買っていたであろうノートPCとの 価格差 かもしれない
    • モデルに対するコントロールは得られるが、最も高性能なモデルにはアクセスできず、小さいモデルしか動かせない
    • LLMの出力だけでなくノートPCも手に入り、しかもMacなら、買い替え時にも 中古価格 がかなり残るはずだ
    • OpenRouterではCyberpunk 2077を5K HDR最高設定で動かせない
    • 元記事は、Macを買い漁ることに夢中な人たちと比べれば 絶対的に最善のケース を示しているとも言える。
      この種の人のうち驚くほど多くがMac Studioに $10,000 以上使っているが、それでも計算ボトルネックがあり、Gemma 4より効率的な選択肢もあまりない
  • フロンティアAI企業 は赤字で売っている。
    u/bastawhiz のコメント[0]を脇に置いても、Claude、OpenAI、Geminiなどは文字通り数千億ドルを燃やしながら、最後まで生き残る側になることを願って、1ドルのものを数セントで転売している。
    私がオレンジを育てるのに $10 かけて $1 で売るなら、当然、自分で育てるほうが高く見える。この手のモデルは時間が経つほど高くならざるを得ず、大規模な赤字販売をやめる前に市場を押さえようとしているだけだ。
    [0]: https://news.ycombinator.com/item?id=48168433

    • その可能性は低そうだ。OpenRouterには公開モデルを提供するベンダーが多く、彼らが売るトークンごとに赤字を出しているとは考えにくい。
      また、規模が大きいほど推論がはるかに効率的になる 技術的理由 もある
    • ブログはGemma4 31Bの実行コストを比較しているが、OpenRouterではこのモデルはフロンティアAI企業ではなく、小規模で無名の推論プロバイダーが提供している。かなり公平な比較に見える
    • それでも 規模の効率 はもっと大きく効く。私の現在の負荷ではローカルモデルを24時間98%稼働させ続けることはできないが、大きなクラウドなら可能だ。自分のサーバーを直流給電にもできないし、交流を直流に変換する非効率もある。そうした要素が積み重なる
    • それは事実ではない。APIトークン は赤字販売されておらず、ハードウェアは時間とともに効率が良くなるので、同じモデルの推論提供コストは下がる。
      LLAMA 3.1 405Bは2024年には100万トークンあたり $6/$12 だったが、2026年には同じモデルが $3/$3 だ。ある時点で最も知的なモデルは以前よりはるかに大きくなるため、GPT5.5のトークンコストが5.4より高いだけだ。しかし2年後には、GPT5.5規模のモデルを提供するコストは今日のGPT5.5より安くなっている可能性が高い。蒸留手法は、同じベンチマークスコアに必要なパラメータ数を減らすのに有効なので、2年後には同等の知能をもっと安く得られるはずだ
    • 根拠はあるのか? AnthropicのCEOは会社が 黒字 だと言っていたし、OpenAIも同様だと言っていた
  • 良い密なモデルが欲しいなら、qwen3.6 27Bを使うほうがよい。速度も上がるし、より賢いという私の言葉を信じなくても、Gemmaのように大きくて遅くメモリ効率も低いモデルと比べた OpenRouterの価格 がそれを物語っている。
    より速いモデルが欲しければqwen3.6 35Bを使えばよい。Gemmaモデルのほうが自分の作業に合うなら、gemma 4 26Bもありだ。人々が、私も含めて、この2つ、特に27Bについて繰り返し話してきたのには理由がある。十分小さいので妥当な速度で動き、しかも llama.cpp が公式対応した内蔵MTPのおかげで特にそうだ。多くのワークロードと、私が試したすべてのベンチマークで、本来勝てないはずのモデルと肩を並べるか上回る。
    数日前、インターネットが切れた状態で目が覚め、piで27Bを立ち上げて、ルーターのパスワードを渡し、何が問題か診断するよう頼んだ。コーヒーを取って戻ると、進め方の提案を含む完全なレポートができていた。私はOpenRouterが好きで色々な用途に使っているが、より安いわけではない。
    もちろん、これはこれらのモデルをすべて使った個人的経験に基づく主観も混じっている。31B Gemmaが勝るケースもあるのだろうが、私は見つけられなかったし、挙げた4つのモデルをそれぞれ公開後数時間から各種タスクで回し続けている。自分のhermesでも、gemma 4 26Bからqwen3.5 9Bに変えたら結果が良くなり、しかもそれは大幅改良された3.6系ですらなかった。こういう分析をしながら、現行の消費者向けハードウェア基準で最先端と見なされるモデルを使わないのは、古いかチェリーピックに感じられる

    • その通り。Qwen 3.6 45b(6 parameter) は一般的な RTX 5090 で動くし、ゲームが好きならすでに持っている可能性も高い。たいていのコード生成タスクには十分使える。
      同様にDeepSeek V4 Flashもローカルモデルとしてかなり手が届くし、DwarfStar 4を使えば96GB MacBookで簡単に動かせる。
      推論コストを払うこと自体が問題なのではないが、ローカルモデルは完全オフライン利用、個人識別情報や法的秘匿特権のあるデータ処理、課金超過をまったく気にしない作業など、かなり驚くような可能性を開いてくれる。
      もう一つは、サービス停止や終了を心配せずに100%継続運用できると確信するサービスを作れることだ。フロンティアモデルには今この問題がある。私のローカルQwen構成は完全に予測可能で、動かすハードウェアさえ確保できれば走らせ続けられる
    • 妥当な戦略は両方使うことだ。ローカル推論環境を持ち、低価格と高価格のクラウドモデルを併用すればよい。GPT-5.5とOpus-4.7は難しい推論タスクのような得意分野に使い、後者はClaudeサブスク経由で回避して安く使い、やや難易度の低い作業にはDeepSeek V4 Pro、大半のコード生成にはV4 Flash、ローカルモデルが必要な仕事にはローカルモデルを使えばよい
    • 主張自体には同意するが、qwen3.6 27Bの価格をそう読むのが正しいかはわからない。
      それらのプロバイダーはAlibabaの27B Denseの一次価格に追随しているようで、個人的には少し高いと思う。QwenモデルはフロンティアモデルやGemmaに比べて 推論効率 が低く、長いシーケンス長を提供するコストが高いからかもしれない
    • 量子化モデル同士をどう評価しているのか気になる。気に入るベンチマークがまだ見つかっていない。
      27Bでデバッグした例は良い話だ。メモリが4倍あるMacを買ったあと、似たような成功を見ていて、Qwen 35B A3Bが急にとても良くなった。ノートPCの9Bは良いとは言いづらかった
  • ここには元記事の分析の問題点を扱うコメントが多いが、より大きな結論については、かなりの人が「大差ない区別」に近いと考えていると思う。プライバシーを除き、純粋に コストと性能 だけを見れば、個人開発者は自前ホスティングよりホストされたサービスを使うほうがよい。
    仕事では雇用主がトークン費用を払うし、仕事外では多くの開発者が好みのプロバイダーの月額 $20/$100/$200 のサブスクで十分だと感じている。純粋な費用対性能の観点でローカルモデル実行が適している条件に入る開発者は多くない。
    さらに重要なのは、実際にローカルモデルをセットアップすることは、コスト削減や生産性向上よりも、趣味、学習、あるいは プライバシー管理 に近いように見えることだ

    • モデル開発者たちが夢見る メインフレーム型コンピューティング は、OpenAI、Google、Anthropic、Microsoftが何を望もうと、戻ってこないだろう。扉の前には入りたがっている賢い技術的蛮族が多すぎるし、彼らはコンピュータ端末の時代に逆戻りすることに満足しない。
      パーソナルコンピュータが以前の端末時代を終わらせ、その会社の大半は消え、IBMと数社の残存企業だけが残ったが、それも昔の影にすぎない
  • 筆者は出力トークンのコストだけを比較していたが、一般的な エージェント型ワークロード では入力トークンがコストの大きな部分を占める。ローカル推論では、一次的には入力トークンは無料だ。
    より長いTTFT、より高い消費電力、より低い出力トークン速度といった暗黙のコストが生じるだけだ

    • その通りで、その点が筆者の主張を完全に崩している。
      自分のOpenRouterの利用履歴で適当なエージェントセッションをいくつか見たところ、入力コストが出力コストの10倍だった。OpenRouterのプロンプトキャッシュは複雑で信頼しにくいが、ローカルハードウェア上のllama-cppでは大半がほぼ無料だ
    • ローカル環境のより良いキャッシュを無視しても、Macハードウェアは入力トークンを出力トークンよりおおむね 10倍速く処理 することが多い。OpenRouterでは同じモデルでも差は2倍程度に見える
  • 賢くやればそうはならない。MacBook M5 Max 128GBは6,000ドルのプレミアムノートPCだが、多くのことができ、一日中使う優れたメインマシンになる。
    そのうえでDeepSeek V4 Flashを動かせば、検閲や制限なしに、インターネット接続なしでも、非常にセンシティブな個人データで、軽くない仕事をローカルで処理できる。これは良い取引だ。OpenAIやその手の会社を捨てるために25,000ドルのデュアルMac Studio 512GBを買えば、性能面でもコスト面でも失望するだろう

    • 賢い選択は、普段使い用に約 48GB MacBook を買い、AIサブスクやトークンに年間約 $800 を予算化することだ。そうすれば最終的に同じ価格帯になる。
      ブログの筆者として言うが、この文章はMacBook M5 Max 128GBで書いている
    • 私のM4 Max 128GBは結局かなり合理的な選択だった。動画編集、機械学習モデルの学習、大きな公開AIモデルの実行、3Dモデリング、レンダリング、CAD作業をしている。
      これら全部を常時100%やっているわけではない。夜通し機械学習の学習を走らせて朝に結果を確認し、仕事中はサーバーのように立ち上げてローカルモデルを動かし、個人時間には動画編集と3Dモデリングをする。驚くほど多用途なマシンで、しかもすべてデータをデバイス内に留め、ワークフローを完全に制御したままで行える
    • HNの人たちには秘密だが、こうしたモデルの一部は $200のrpi5 や $500 のAMDミニPCでも動かせる。
      もう一つの公然の秘密は、Gemini 3.1やGLM 4.6のようなかなり優秀なモデルで、数万トークンを無料提供している企業がいくつかあることだ
  • 元記事はあちこちでGemmaと比較しておきながら、結論ではAnthropicに金を払うほうが良いとしている。Anthropicは出力100万トークンあたり $15 で、OpenRouter基準でも 30〜35倍高い
    これは自宅の電動自転車と電動自転車のレンタルを比較したあと、同じくらいの速さで走れるのだからToyotaを借りるべきだと結論するようなものだ。ひどい記事が注目を集めるのにはうんざりする

  • 記事は最後の部分で大きなミスをしていて、重大なレベルで間違っている。生成されたトークンだけを見て、それがコストだとは言えない。エージェント型コーディング ではターン数が多いため、出力トークンだけでなく、毎回送るすべての入力トークンのコストも払う。キャッシュされて10倍ほど安くなるとしても同じだ。だからこの計算はAPIコストをまったく正確に表していない。
    第二に、エージェントチームを使えばローカルトークン生成量を大きく増やせる。単一の会話はメモリ帯域に縛られて計算資源を完全には使い切れない。複数エージェントのトークンをバッチ処理できれば、トークン生成量を簡単に5倍にできる

  • クラウドAIではとてもやっていけない。私にとっては速度や最先端モデルよりも プライバシーと完全なコントロール のほうが重要だ

    • 予測可能性、回復力、主権もある。他人の障害、予想外の需要が都合の悪いタイミングで自分に影響すること、誰かが自分のモデルを弱体化させること、コストが予測不能に変わること、思わぬエラーで高額請求が来ることを心配しなくてよい。
      私にとっては 屋上太陽光 と同じカテゴリだ。インフラの制御と依存関係の削減によって安心感を得るタイプなら、厳密な経済合理性がぴったり合っている必要はない