Llama-3 8B-Instructモデルのセルフホスティングコスト

xguru · 2024-06-17T10:08:01+09:00

大規模言語モデル（LLM）を直接ホスティングするコストはどれくらいか？ Llama-3 8B-InstructモデルをEKSでホスティングする場合、100万トークンあたり約$17 同じ作業をChatGPTで行うと、100万トークンあたり$1 ハードウェアをセルフホスティングすると、100万トークンあたりのコストは$0.01未満まで下がり、損益分岐点に達するまで約5.5年かかる 4x NVidia Tesla T4 GPUおよびその他ハードウェア費用（$3800）+ 月間費用（電気代ほか）$100で計算最適なハードウェアを決定した過程テスト環境: すべてのテストはEKSクラスターで実行最初の試み: Nvidia Tesla T4 GPUを使うAWS g4dn.2xlarge インスタンス。スペック: 1 NVidia Tesla T4、32GBメモリ、8 vCPU。結果: Llama 3の8Bまたは70Bパラメータ版は実行不可。問題: OOM（Out of Memory）が発生し、応答時間は約10分。 2回目の試み: Nvidia Tesla T4 GPUを4基使うAWS g4dn.16xlarge インスタンス。スペック: 4 NVidia Tesla T4、192GBメモリ、48 vCPU。結果: 応答時間が10秒以内まで短縮。初期実装実装方法: Hugging FaceのLlama-3コードをコピーして使用。コスト計算: g5dn.12xlarge インスタンス使用料金: 1時間あたり$3.912。月間コスト換算では、100万トークンあたり約$167.17のコストが発生。 ChatGPT 3.5 Turboの料金: 100万トークンあたり$1。問題解決問題の認識: 既存の方法が誤っていたことに気づき、vLLM を使用。改善結果: APIサーバーをホスティングするために ray と vllm をインストール。 —tensor-parallel-size 4 オプションで4基のGPUをすべて使用。結果: 応答時間は2044msまで大幅に改善。コスト計算では、100万トークンあたり約$17。代替アプローチ自前ハードウェアでのホスティング: 必要なハードウェア: 4x NVidia Tesla T4 GPU、eBayで約$700。その他の費用を含め、総セットアップ費用は約$3,800。月間エネルギーコストは約$50。月間総コストは約$100で計算。損益分岐点に達するまで約66か月（5.5年）。結論長所: 自前ハードウェアでホスティングすればコスト削減が可能。短所: ハードウェア管理とスケーリングが必要 100%活用を前提とするのは非現実的なため、実際の状況に合わせた評価が必要。

(blog.lytix.co)

15 ポイント投稿者 xguru 2024-06-17 | 4件のコメント | WhatsAppで共有

大規模言語モデル（LLM）を直接ホスティングするコストはどれくらいか？
Llama-3 8B-InstructモデルをEKSでホスティングする場合、100万トークンあたり約$17
同じ作業をChatGPTで行うと、100万トークンあたり$1
ハードウェアをセルフホスティングすると、100万トークンあたりのコストは$0.01未満まで下がり、損益分岐点に達するまで約5.5年かかる
- 4x NVidia Tesla T4 GPUおよびその他ハードウェア費用（$3800）+ 月間費用（電気代ほか）$100で計算

最適なハードウェアを決定した過程

テスト環境: すべてのテストはEKSクラスターで実行
最初の試み: Nvidia Tesla T4 GPUを使うAWS g4dn.2xlarge インスタンス。
- スペック: 1 NVidia Tesla T4、32GBメモリ、8 vCPU。
- 結果: Llama 3の8Bまたは70Bパラメータ版は実行不可。
- 問題: OOM（Out of Memory）が発生し、応答時間は約10分。
2回目の試み: Nvidia Tesla T4 GPUを4基使うAWS g4dn.16xlarge インスタンス。
- スペック: 4 NVidia Tesla T4、192GBメモリ、48 vCPU。
- 結果: 応答時間が10秒以内まで短縮。

初期実装

実装方法: Hugging FaceのLlama-3コードをコピーして使用。
コスト計算:
- g5dn.12xlarge インスタンス使用料金: 1時間あたり$3.912。
- 月間コスト換算では、100万トークンあたり約$167.17のコストが発生。
- ChatGPT 3.5 Turboの料金: 100万トークンあたり$1。

問題解決

問題の認識: 既存の方法が誤っていたことに気づき、vLLM を使用。
改善結果:
- APIサーバーをホスティングするために ray と vllm をインストール。
- —tensor-parallel-size 4 オプションで4基のGPUをすべて使用。
- 結果: 応答時間は2044msまで大幅に改善。
- コスト計算では、100万トークンあたり約$17。

代替アプローチ

自前ハードウェアでのホスティング:
- 必要なハードウェア: 4x NVidia Tesla T4 GPU、eBayで約$700。
- その他の費用を含め、総セットアップ費用は約$3,800。
- 月間エネルギーコストは約$50。
- 月間総コストは約$100で計算。
- 損益分岐点に達するまで約66か月（5.5年）。

結論

長所: 自前ハードウェアでホスティングすればコスト削減が可能。
短所: ハードウェア管理とスケーリングが必要
- 100%活用を前提とするのは非現実的なため、実際の状況に合わせた評価が必要。

4件のコメント

iolothebard 2024-06-17

モデルを構築するわけでもなく、
Llama 8Bで推論するだけなのに、機材が大げさですね。
24G GPU（3090や4090）なら十分です（200万～300万ウォン）。月の電気代も3万ウォン程度で十分。
書いてから見たら、下にありますね（笑）

wedding 2024-06-17

5.5年は長いですね..

ragingwind 2024-06-17

8Bをトイレベル以上で運用できますか？

xguru 2024-06-17

Hacker Newsの意見

AWSの代わりにハードウェアを自前でホスティングすれば、コストを大幅に削減できる。
- NVidia Tesla T4を4枚使うと、費用は約$3,800。
- Llama 3 8bモデルなら、3090または4090のGPU 1枚で十分。
- eBayでGPUを購入すれば、コスト削減が可能。
Llama 8BモデルはAWS Bedrockで、入力1Mトークンあたり$0.40、出力トークンあたり$0.60で、OpenAIモデルより安い。
- サーバー構築と保守にかかる時間とコストも考慮する必要がある。
Jetstream + Maxtextの価格
- TPU v5eを使った3年契約の価格は、1Mトークンあたり$0.25。
- オンデマンド価格は、1Mトークンあたり約$0.45。
- 詳細はGoogle Next 2024のセッションで確認できる。
NVIDIAの市場価値下落予想
- LLMの性能が頭打ちになり、LLMが商用化されるにつれて、NVIDIAの市場価値は下がる可能性がある。
- 学習向けの計算需要も、予想より早く減少するだろう。
コスト分析の問題点
- バッチサイズ1で実行するのは、コスト分析に大きな誤りをもたらす。
- APIプロバイダーが課金するコストより100倍から1000倍高い。
8Bモデルの実行コスト
- 3090と基本的なシステムがあれば、8Bモデルを十分に実行できる。
- OpenAIとAWSのコスト差は大きい（$1 vs $17）。
- 実際にはAWSのほうが安い可能性がある。
コスト理解の問題点
- 単一の同期リクエストでコストを理解するのは不適切。
- ChatGPTは多くのリクエストを並列に処理している。
- より大きなリクエスト、同時リクエスト、リクエストのキューイングによって、コストを大幅に下げられる。
LLMアクセスのコスト
- LLMへのアクセスコストは非常に安い。
- 技術の進歩に比べてコストが低いため、技術者は喜ぶべきだ。
T4は6年前のカードであり、3090、4090、A10、A100などと比較するほうが適切。