Apple SiliconはOpenRouterよりコストが高い
(williamangel.net)- ローカル推論コストは電気代よりもデバイス価格の影響が大きく、M5 Max MacBook Pro 64GBモデルは $4,299 として計算
- 負荷時のApple SiliconノートPCは 50〜100W を消費し、kWhあたり $0.20 基準でも電気代は1日約 $0.48 にとどまる
- Gemma4:31b は M5 Max で毎秒 10〜40トークン が観測され、100万トークンあたりのコストは約 $0.40〜$4.79 まで開く
- OpenRouter の Gemma4 31b は100万トークンあたり約 $0.38〜$0.50 で、非常に楽観的な条件でのみ MacBook Pro Max と同程度になる
- ローカル推論は概ね OpenRouter より高価で遅く、会計上は Pro Max のコストを100万トークンあたり約 3倍 と見積もるのが妥当
ローカル推論コストの計算
- 電気料金は Northern Virginia の最近の請求書では kWh あたり $0.18 で、計算では kWh あたり $0.20 に引き上げて見積もっている
- EIAの2025年米国住宅向け平均電気料金 は kWh あたり $0.1730
- Apple Silicon ノートPCが負荷時に 50〜100W を消費する場合、電気代は1時間あたり $0.009〜$0.018 で、おおむね1時間あたり $0.02 として計算できる
- 推論を100%で回し続けても電気代は1日 $0.48 程度
- 14インチ M5 Max MacBook Pro 64GBモデルは Apple のWebサイト基準で $4,299 で、64GB は Gemma 4 31b のようなモデルを動かせる水準とされる
- ハードウェア寿命を3年、5年、10年で分けると、年間コストはそれぞれ $1,433、$860、$430
- 1時間あたりのハードウェアコストは、3年基準で $0.16358、5年基準で $0.09815、10年基準で $0.04908 と計算される
- 一般的な使用では 5年 が妥当な寿命推定で、7年や10年も可能だが、最大推論負荷では3年も妥当な推定になりうる
トークン単価とOpenRouterとの比較
- ローカルモデルのコストで重要な変数は、1時間あたりに生成できる トークン数 であり、M5 Max のテストでは Gemma4:31b のようなモデルは毎秒 10〜40 トークンの範囲だった
- 毎秒10トークンなら1時間あたり36,000トークンで、寿命3〜10年・kWh あたり $0.18 基準では100万トークンあたりのコストは $1.61〜$4.79 と計算される
- 毎秒40トークンなら1時間あたり144,000トークンで、100万トークンあたりのコストは $0.40〜$1.20 まで下がる
- Apple Silicon では電気代より ハードウェアコスト が全体コストを左右する
- OpenRouter の Gemma4 31b の価格は100万トークンあたり約 $0.38〜$0.50
- 50W・毎秒40トークン・10年使用という楽観的な条件では、MacBook Pro Max は OpenRouter と同程度のコストまで下がる
- 100W・毎秒10トークン・3年使用という悲観的な条件では、MacBook Pro Max は OpenRouter より 10倍 高い
- 会計上の観点では、Pro Max のローカル推論コストは OpenRouter 比で100万トークンあたり約 3倍 と見る推定が妥当
- ほとんどの場合、コストより 推論速度 のほうが大きな変数であり、ローカル推論はクラウド推論より遅い
- OpenRouter の一部の Gemma 4 提供元は毎秒 60〜70 トークンに達し、Pro Max で観測された毎秒 10〜20 トークンより 3〜7倍 速い
- 業務用ノートPCを使う従業員の給与コストは、ローカルで生成可能なトークンコストより約 1000倍 大きいため、この文脈では Anthropic にコストを払うほうが合理的
- コンシューマー向けデバイスで Anthropic Sonnet に近い性能のモデルを動かせる点は、依然として驚くべき結果だ
1件のコメント
Hacker Newsのコメント
この分析はあまり良くない。あらゆる値をずっと切り上げて計算しているからだ。電気料金を10%高めに見積もり、消費電力レンジでは低い値の2倍である上限を選び、そのうえで膨らませた電気料金を掛けている。
しかも、新しく買ったMacを推論専用に24時間フル負荷で回す前提になっている。なぜそうしなければならないのか? Apple Siliconは速いが、筆者自身も指摘しているように毎秒10〜40トークン程度で、悪くはないにせよ、もともとその用途向けではない。
データセンターは家庭用の電気料金を払わず、電力効率の良いチップを使い、Mac向けに設計されていないチップを使う。Apple Siliconは24/7/365でトークンを吐き続けるわけではないし、その目的だけのために新たにハードウェアを買わないのであれば、かなり悪くない。必要な作業にMac Studioを週に数回使いつつ、tailnet越しにollamaを「ほぼ無料で」動かせる。Mac Studioを液冷H100クラスターのように使おうとしない限り採算は合うし、マルチテナントのハードウェアと安い電力でワット当たりトークン数が高いほうがほぼ常に勝つのは当然だ
私の読み違いでなければ、この計算はトークン生成コストに ノートPC全体の価格 を入れている。お金を払った見返りとして、LLMの出力だけでなくノートPC自体も受け取っている点が抜けているようだ。
このマシンを暗い隅に置いて、トークンを吐くサーバーとしてだけ動かすつもりなら、ノートPCはこの目的には本当にひどい技術選択だ。だがノートPCをノートPCとして使うつもりなら、ノートPCが手に入ることは、ないより大きな利点だ。
さらに プライバシー、検閲からの自由、使うモデルへのコントロールも得られる。特定モデルの性質に合わせてワークフローを作った3か月後に、そのモデルが突然消えるような事態を避けられる
この種の人のうち驚くほど多くがMac Studioに $10,000 以上使っているが、それでも計算ボトルネックがあり、Gemma 4より効率的な選択肢もあまりない
フロンティアAI企業 は赤字で売っている。
u/bastawhiz のコメント[0]を脇に置いても、Claude、OpenAI、Geminiなどは文字通り数千億ドルを燃やしながら、最後まで生き残る側になることを願って、1ドルのものを数セントで転売している。
私がオレンジを育てるのに $10 かけて $1 で売るなら、当然、自分で育てるほうが高く見える。この手のモデルは時間が経つほど高くならざるを得ず、大規模な赤字販売をやめる前に市場を押さえようとしているだけだ。
[0]: https://news.ycombinator.com/item?id=48168433
また、規模が大きいほど推論がはるかに効率的になる 技術的理由 もある
LLAMA 3.1 405Bは2024年には100万トークンあたり $6/$12 だったが、2026年には同じモデルが $3/$3 だ。ある時点で最も知的なモデルは以前よりはるかに大きくなるため、GPT5.5のトークンコストが5.4より高いだけだ。しかし2年後には、GPT5.5規模のモデルを提供するコストは今日のGPT5.5より安くなっている可能性が高い。蒸留手法は、同じベンチマークスコアに必要なパラメータ数を減らすのに有効なので、2年後には同等の知能をもっと安く得られるはずだ
良い密なモデルが欲しいなら、qwen3.6 27Bを使うほうがよい。速度も上がるし、より賢いという私の言葉を信じなくても、Gemmaのように大きくて遅くメモリ効率も低いモデルと比べた OpenRouterの価格 がそれを物語っている。
より速いモデルが欲しければqwen3.6 35Bを使えばよい。Gemmaモデルのほうが自分の作業に合うなら、gemma 4 26Bもありだ。人々が、私も含めて、この2つ、特に27Bについて繰り返し話してきたのには理由がある。十分小さいので妥当な速度で動き、しかも llama.cpp が公式対応した内蔵MTPのおかげで特にそうだ。多くのワークロードと、私が試したすべてのベンチマークで、本来勝てないはずのモデルと肩を並べるか上回る。
数日前、インターネットが切れた状態で目が覚め、piで27Bを立ち上げて、ルーターのパスワードを渡し、何が問題か診断するよう頼んだ。コーヒーを取って戻ると、進め方の提案を含む完全なレポートができていた。私はOpenRouterが好きで色々な用途に使っているが、より安いわけではない。
もちろん、これはこれらのモデルをすべて使った個人的経験に基づく主観も混じっている。31B Gemmaが勝るケースもあるのだろうが、私は見つけられなかったし、挙げた4つのモデルをそれぞれ公開後数時間から各種タスクで回し続けている。自分のhermesでも、gemma 4 26Bからqwen3.5 9Bに変えたら結果が良くなり、しかもそれは大幅改良された3.6系ですらなかった。こういう分析をしながら、現行の消費者向けハードウェア基準で最先端と見なされるモデルを使わないのは、古いかチェリーピックに感じられる
同様にDeepSeek V4 Flashもローカルモデルとしてかなり手が届くし、DwarfStar 4を使えば96GB MacBookで簡単に動かせる。
推論コストを払うこと自体が問題なのではないが、ローカルモデルは完全オフライン利用、個人識別情報や法的秘匿特権のあるデータ処理、課金超過をまったく気にしない作業など、かなり驚くような可能性を開いてくれる。
もう一つは、サービス停止や終了を心配せずに100%継続運用できると確信するサービスを作れることだ。フロンティアモデルには今この問題がある。私のローカルQwen構成は完全に予測可能で、動かすハードウェアさえ確保できれば走らせ続けられる
それらのプロバイダーはAlibabaの27B Denseの一次価格に追随しているようで、個人的には少し高いと思う。QwenモデルはフロンティアモデルやGemmaに比べて 推論効率 が低く、長いシーケンス長を提供するコストが高いからかもしれない
27Bでデバッグした例は良い話だ。メモリが4倍あるMacを買ったあと、似たような成功を見ていて、Qwen 35B A3Bが急にとても良くなった。ノートPCの9Bは良いとは言いづらかった
ここには元記事の分析の問題点を扱うコメントが多いが、より大きな結論については、かなりの人が「大差ない区別」に近いと考えていると思う。プライバシーを除き、純粋に コストと性能 だけを見れば、個人開発者は自前ホスティングよりホストされたサービスを使うほうがよい。
仕事では雇用主がトークン費用を払うし、仕事外では多くの開発者が好みのプロバイダーの月額 $20/$100/$200 のサブスクで十分だと感じている。純粋な費用対性能の観点でローカルモデル実行が適している条件に入る開発者は多くない。
さらに重要なのは、実際にローカルモデルをセットアップすることは、コスト削減や生産性向上よりも、趣味、学習、あるいは プライバシー管理 に近いように見えることだ
パーソナルコンピュータが以前の端末時代を終わらせ、その会社の大半は消え、IBMと数社の残存企業だけが残ったが、それも昔の影にすぎない
筆者は出力トークンのコストだけを比較していたが、一般的な エージェント型ワークロード では入力トークンがコストの大きな部分を占める。ローカル推論では、一次的には入力トークンは無料だ。
より長いTTFT、より高い消費電力、より低い出力トークン速度といった暗黙のコストが生じるだけだ
自分のOpenRouterの利用履歴で適当なエージェントセッションをいくつか見たところ、入力コストが出力コストの10倍だった。OpenRouterのプロンプトキャッシュは複雑で信頼しにくいが、ローカルハードウェア上のllama-cppでは大半がほぼ無料だ
賢くやればそうはならない。MacBook M5 Max 128GBは6,000ドルのプレミアムノートPCだが、多くのことができ、一日中使う優れたメインマシンになる。
そのうえでDeepSeek V4 Flashを動かせば、検閲や制限なしに、インターネット接続なしでも、非常にセンシティブな個人データで、軽くない仕事をローカルで処理できる。これは良い取引だ。OpenAIやその手の会社を捨てるために25,000ドルのデュアルMac Studio 512GBを買えば、性能面でもコスト面でも失望するだろう
ブログの筆者として言うが、この文章はMacBook M5 Max 128GBで書いている
これら全部を常時100%やっているわけではない。夜通し機械学習の学習を走らせて朝に結果を確認し、仕事中はサーバーのように立ち上げてローカルモデルを動かし、個人時間には動画編集と3Dモデリングをする。驚くほど多用途なマシンで、しかもすべてデータをデバイス内に留め、ワークフローを完全に制御したままで行える
もう一つの公然の秘密は、Gemini 3.1やGLM 4.6のようなかなり優秀なモデルで、数万トークンを無料提供している企業がいくつかあることだ
元記事はあちこちでGemmaと比較しておきながら、結論ではAnthropicに金を払うほうが良いとしている。Anthropicは出力100万トークンあたり $15 で、OpenRouter基準でも 30〜35倍高い。
これは自宅の電動自転車と電動自転車のレンタルを比較したあと、同じくらいの速さで走れるのだからToyotaを借りるべきだと結論するようなものだ。ひどい記事が注目を集めるのにはうんざりする
記事は最後の部分で大きなミスをしていて、重大なレベルで間違っている。生成されたトークンだけを見て、それがコストだとは言えない。エージェント型コーディング ではターン数が多いため、出力トークンだけでなく、毎回送るすべての入力トークンのコストも払う。キャッシュされて10倍ほど安くなるとしても同じだ。だからこの計算はAPIコストをまったく正確に表していない。
第二に、エージェントチームを使えばローカルトークン生成量を大きく増やせる。単一の会話はメモリ帯域に縛られて計算資源を完全には使い切れない。複数エージェントのトークンをバッチ処理できれば、トークン生成量を簡単に5倍にできる
クラウドAIではとてもやっていけない。私にとっては速度や最先端モデルよりも プライバシーと完全なコントロール のほうが重要だ
私にとっては 屋上太陽光 と同じカテゴリだ。インフラの制御と依存関係の削減によって安心感を得るタイプなら、厳密な経済合理性がぴったり合っている必要はない