13 ポイント 投稿者 GN⁺ 2025-02-12 | 3件のコメント | WhatsAppで共有
  • AIツール開発には多額の資金が投じられており、多くのサービスは赤字を受け入れながら運営されている
  • 大手テック企業のサービスは市場を掌握するために無料または低価格で提供されており、最終的には「広告や政治的利害関係によってAIモデルが操作される可能性が高い」
  • 解決策は「自分専用のAIモデルを自ら運用すること」
    • DeepSeekのような企業は自社モデルを無料公開して市場を揺さぶっている。こうしたモデルはバイアスを取り除くことができ、個人のハードウェアでも実行可能

個人用AIコンピュータ構築の課題

  • LLMをローカルで実行するには、Nvidiaの高性能なビデオカードかApple製品を購入する必要がある
  • メモリが多いほどより大きなモデルを実行でき、これは出力品質を大きく向上させる
    • Nvidia GPUまたはAppleデバイス が必要(どちらも高価)
    • 最低でも 24GB以上のVRAMまたはRAM が必要
  • コスト削減方法: 中古機器を購入するのも一つの方法であり、メモリ帯域幅やその他の仕様も重要

低コストAIコンピュータの構築過程

  • 目標: 1700ユーロ前後でAIモデルをローカル実行できるシステムを構築
  • 最終構成:
    • HP Z440ワークステーション (Xeon 12コア、128GB RAM)
    • Nvidia Tesla P40 GPU 2基 (各24GB VRAM、合計48GB)
    • NZXT C850 Gold電源ユニット
    • Gainward GT 1030 (ダミーGPU、画面出力用)
    • カスタム冷却ファンおよび電源アダプター

主な技術的問題と解決方法

1. サーバー向けGPUの冷却問題

  • Tesla P40はサーバー環境での使用を前提に設計されており、内蔵ファンがない
  • 解決策: 3Dプリントしたファンマウントと強制エアフローの調整
  • ファン速度を調整して温度と騒音のバランスを適切に取る

2. HPワークステーションの互換性問題

  • HPが独自部品のみを使うよう制限している
  • 電源ユニットおよびボード接続アダプターを追加購入する必要がある

3. BIOSの起動問題

  • Tesla P40には ディスプレイ出力ポートがない → 起動不可
  • 低価格のGT 1030 GPUを追加して解決

性能テスト結果

1. 推論速度 (Tokens per second)

  • Mistral-Small (24Bモデル): 15.23
  • Gemma2 (27Bモデル): 13.90
  • Qwen2.5-Coder (32Bモデル): 10.75
  • Llama3.3 (70Bモデル): 5.35
  • DeepSeek-R1 (70Bモデル): 5.30

2. 消費電力

  • コンピュータが待機状態のときは約80Wを使用
  • 32Bモデルをロードすると123W、実行すると241Wまで上昇
  • 70Bモデルでは、ロード時166W、実行中は293Wまで消費
  • つまり、モデルサイズが大きくなるほど消費電力は増加し、モデルをGPUにロードした状態でもかなりの電力を消費するため、必要なときだけモデルを保持する戦略が重要

結論: 個人用AIサーバー構築は価値ある選択か?

  • 完全に独立したAIシステムの構築に成功
  • 比較的安価な価格で中規模モデルをローカル実行可能
  • 最新の高価な機材がなくてもAIモデルを運用できる点に満足
  • 長期的なAI技術の変化に備えられる柔軟なシステムを構築

3件のコメント

 
crawler 2025-02-13

GPUなしでCPUとSSDだけでR1を動かす構成もあったけど、これはちょっと微妙な気がしますね

 
dhy0613 2025-02-13

| 同じ価格(1799ドル)で、48GBユニファイドメモリとM4 Pro搭載のMac Miniを購入できる。消費電力が少なく静かで、この構成より性能が高い可能性もある。この記事は楽しく読んだが、同じ状況ならMacを買うと思う。

と言いたかったのですが、Hacker Newsの意見にありました。

トークン単価がどんどん安くなっているので、ファインチューニングしたり画像生成したりするのでなければ、あえてそこまでする必要はないかも……という気はしますね。

 
GN⁺ 2025-02-12
Hacker Newsの意見
  • eBayでK80とM40を安く買って、似たようなことをした。K80のドライバは本当に厄介だった。24GB VRAMが50ドルというのは魅力的だが、ドライバの問題があるのでおすすめしない。HPのワークステーションには1200ワットの電源があり、GPUを搭載できた。これらのGPUには独自の冷却機構がないので、3Dプリンターでブラケットを作り、Noctuaのファンを取り付けて24時間365日動かした。予想よりはるかにうまく動作し、温度は60度を超えなかった。CPUもこの方法のおかげで恩恵を受けた。ファンはケースの前後にあり、前側のファンが吸気し、後側のファンが排気する。GPUの前にも2つのファンがある。ワークステーションはリファービッシュ品を600ドルで購入し、GPUは120ドル、ファンは約60ドルで購入した。STLファイルはまだアップロードしていない。かなり特殊なユースケースだからだ.

  • 同じ価格(1799ドル)で、48GBのユニファイドメモリとM4 Proを搭載したMac Miniが買える。消費電力が少なく静かで、この構成より性能が高い可能性がある。この記事は楽しく読んだが、自分が同じ立場ならMacを買う。

  • ローカルLLM向けのマシンを構築したい。MBP M3 Maxの128GB RAMでモデルを試していて、専用のローカルサーバーが欲しい。Proxmoxも試してみたい。OpenWebUIとLibreChatをローカルの「アプリサーバー」で動かしていて満足している。ただ、より強力な機材を買おうとするたびに、ROIが見合わないと感じる。特に変化の速い業界ではなおさらだ。プライバシーは無視できない要素だが、オンライン推論のコストに勝つのは難しい。

  • ローカルホストのモデルは、おもちゃのようにかわいくて面白いジョークを書いたり、個人的な作業をこなしたりできる。だが、API経由で使えるモデルと比べると見劣りする。deepseek-r1-678bをローカルで動かせたらいいのだが、現時点では運用コストのほうが資本コストより大きい。

  • 中間的な選択肢は、必要なときにGPU VPSを借りることだ。H100を1時間2ドルで使える。完全なローカルオフラインほどのプライバシーはないが、SASS APIよりはましだ。1〜3年後には、ローカルで実用的なものを動かすほうが費用対効果に優れるようになっていてほしい。

  • ほかの人も言っているように、同じ価格で高性能なMacが使えて、消費電力も少ない。AppleがエンタープライズAIチップ市場に参入してNvidiaと競争しないのはなぜなのか気になる。Appleなら独自ASICを設計できるはずだ。

  • 「自分のAIを所有する」というのは自宅での趣味としては素晴らしいが、ハードウェアに多くの時間とお金を費やすことになる。Mitko Vasilevのドリームマシンを見てみることを勧める。明確なユースケースがないなら、小さなモデルか遅いトークン生成速度で十分だ。AIを構築して学ぶこと自体が目的なら、必要なときにGPU/TPUを借りるほうが経済的だ。

  • Nvidia Tesla P40を2枚660ユーロで買うのは、「予算内」だとは思わない。安いカードで「小型」または「中規模」のモデルを動かすことはできる。Nvidia Geforce RTX 3060は中古市場で200〜250ユーロで手に入る。48GB VRAMを予算内と呼ぶのは行き過ぎだ。この構成はセミプロかプロ向けだ。中規模または小規模のモデルを使うには妥協が必要だが、予算内で妥協することも重要だ。

  • こうした投資に問題があるのは、翌月にはもっと良いモデルが出るからだ。より多くのRAMが必要になるかもしれないし、今の最高モデルより少ないRAMで済むかもしれない。クラウドインフラを使えばこの問題は解決できる。1回あたりの実行コストは高くなるが、利用が断続的なら節約できる。HNユーザーがこの問題にどう対処しているのか気になる。

  • SBCクラスタを使ってLLM推論を動かしたことがある人がいるのか気になる。たとえばRadxa ROCK 5Cは32GBメモリとNPUを備え、価格は約300ユーロだ。現代のLLMのアーキテクチャについては詳しくないが、複数ノード間でレイヤーを分割できるはずだ。転送しなければならないデータ量はそれほど多くない。現代のMacやNvidia GPUのような性能ではないだろうが、許容範囲で、しかも大容量メモリを安く得る方法になり得る。CPU + GPU推論の最新状況も気になる。プロンプト処理は計算とメモリの両方に制約されるが、トークン生成は主にメモリ制約だ。最初のプロンプト処理のためにGPUにいくつかのレイヤーを読み込み、その後CPU推論に切り替えるツールがあるのか気になる。最後に試したときは、一部のレイヤーをGPUで動かし、一部をCPUで動かせた。すべてをGPUで実行し、メモリ制約のあるトークン生成時にCPUへ切り替えるほうが、より効率的な気がする。