15 ポイント 投稿者 xguru 2024-06-17 | 4件のコメント | WhatsAppで共有
  • 大規模言語モデル(LLM)を直接ホスティングするコストはどれくらいか?
  • Llama-3 8B-InstructモデルをEKSでホスティングする場合、100万トークンあたり約$17
  • 同じ作業をChatGPTで行うと、100万トークンあたり$1
  • ハードウェアをセルフホスティングすると、100万トークンあたりのコストは$0.01未満まで下がり、損益分岐点に達するまで約5.5年かかる
    • 4x NVidia Tesla T4 GPUおよびその他ハードウェア費用($3800)+ 月間費用(電気代ほか)$100で計算

最適なハードウェアを決定した過程

  • テスト環境: すべてのテストはEKSクラスターで実行

  • 最初の試み: Nvidia Tesla T4 GPUを使うAWS g4dn.2xlarge インスタンス。

    • スペック: 1 NVidia Tesla T4、32GBメモリ、8 vCPU。
    • 結果: Llama 3の8Bまたは70Bパラメータ版は実行不可。
    • 問題: OOM(Out of Memory)が発生し、応答時間は約10分。
  • 2回目の試み: Nvidia Tesla T4 GPUを4基使うAWS g4dn.16xlarge インスタンス。

    • スペック: 4 NVidia Tesla T4、192GBメモリ、48 vCPU。
    • 結果: 応答時間が10秒以内まで短縮。

初期実装

  • 実装方法: Hugging FaceのLlama-3コードをコピーして使用。
  • コスト計算:
    • g5dn.12xlarge インスタンス使用料金: 1時間あたり$3.912。
    • 月間コスト換算では、100万トークンあたり約$167.17のコストが発生。
    • ChatGPT 3.5 Turboの料金: 100万トークンあたり$1。

問題解決

  • 問題の認識: 既存の方法が誤っていたことに気づき、vLLM を使用。
  • 改善結果:
    • APIサーバーをホスティングするために rayvllm をインストール。
    • —tensor-parallel-size 4 オプションで4基のGPUをすべて使用。
    • 結果: 応答時間は2044msまで大幅に改善。
    • コスト計算では、100万トークンあたり約$17。

代替アプローチ

  • 自前ハードウェアでのホスティング:
    • 必要なハードウェア: 4x NVidia Tesla T4 GPU、eBayで約$700。
    • その他の費用を含め、総セットアップ費用は約$3,800。
    • 月間エネルギーコストは約$50。
    • 月間総コストは約$100で計算。
    • 損益分岐点に達するまで約66か月(5.5年)。

結論

  • 長所: 自前ハードウェアでホスティングすればコスト削減が可能。
  • 短所: ハードウェア管理とスケーリングが必要
    • 100%活用を前提とするのは非現実的なため、実際の状況に合わせた評価が必要。

4件のコメント

 
iolothebard 2024-06-17

モデルを構築するわけでもなく、
Llama 8Bで推論するだけなのに、機材が大げさですね。
24G GPU(3090や4090)なら十分です(200万~300万ウォン)。月の電気代も3万ウォン程度で十分。
書いてから見たら、下にありますね(笑)

 
wedding 2024-06-17

5.5年は長いですね..

 
ragingwind 2024-06-17

8Bをトイレベル以上で運用できますか?

 
xguru 2024-06-17

Hacker Newsの意見

  • AWSの代わりにハードウェアを自前でホスティングすれば、コストを大幅に削減できる。
    • NVidia Tesla T4を4枚使うと、費用は約$3,800。
    • Llama 3 8bモデルなら、3090または4090のGPU 1枚で十分。
    • eBayでGPUを購入すれば、コスト削減が可能。
  • Llama 8BモデルはAWS Bedrockで、入力1Mトークンあたり$0.40、出力トークンあたり$0.60で、OpenAIモデルより安い。
    • サーバー構築と保守にかかる時間とコストも考慮する必要がある。
  • Jetstream + Maxtextの価格
    • TPU v5eを使った3年契約の価格は、1Mトークンあたり$0.25。
    • オンデマンド価格は、1Mトークンあたり約$0.45。
    • 詳細はGoogle Next 2024のセッションで確認できる。
  • NVIDIAの市場価値下落予想
    • LLMの性能が頭打ちになり、LLMが商用化されるにつれて、NVIDIAの市場価値は下がる可能性がある。
    • 学習向けの計算需要も、予想より早く減少するだろう。
  • コスト分析の問題点
    • バッチサイズ1で実行するのは、コスト分析に大きな誤りをもたらす。
    • APIプロバイダーが課金するコストより100倍から1000倍高い。
  • 8Bモデルの実行コスト
    • 3090と基本的なシステムがあれば、8Bモデルを十分に実行できる。
    • OpenAIとAWSのコスト差は大きい($1 vs $17)。
    • 実際にはAWSのほうが安い可能性がある。
  • コスト理解の問題点
    • 単一の同期リクエストでコストを理解するのは不適切。
    • ChatGPTは多くのリクエストを並列に処理している。
    • より大きなリクエスト、同時リクエスト、リクエストのキューイングによって、コストを大幅に下げられる。
  • LLMアクセスのコスト
    • LLMへのアクセスコストは非常に安い。
    • 技術の進歩に比べてコストが低いため、技術者は喜ぶべきだ。
  • T4は6年前のカードであり、3090、4090、A10、A100などと比較するほうが適切。