Llama-3 8B-Instructモデルのセルフホスティングコスト
(blog.lytix.co)- 大規模言語モデル(LLM)を直接ホスティングするコストはどれくらいか?
- Llama-3 8B-InstructモデルをEKSでホスティングする場合、100万トークンあたり約$17
- 同じ作業をChatGPTで行うと、100万トークンあたり$1
- ハードウェアをセルフホスティングすると、100万トークンあたりのコストは$0.01未満まで下がり、損益分岐点に達するまで約5.5年かかる
- 4x NVidia Tesla T4 GPUおよびその他ハードウェア費用($3800)+ 月間費用(電気代ほか)$100で計算
最適なハードウェアを決定した過程
-
テスト環境: すべてのテストはEKSクラスターで実行
-
最初の試み: Nvidia Tesla T4 GPUを使うAWS
g4dn.2xlargeインスタンス。- スペック: 1 NVidia Tesla T4、32GBメモリ、8 vCPU。
- 結果: Llama 3の8Bまたは70Bパラメータ版は実行不可。
- 問題: OOM(Out of Memory)が発生し、応答時間は約10分。
-
2回目の試み: Nvidia Tesla T4 GPUを4基使うAWS
g4dn.16xlargeインスタンス。- スペック: 4 NVidia Tesla T4、192GBメモリ、48 vCPU。
- 結果: 応答時間が10秒以内まで短縮。
初期実装
- 実装方法: Hugging FaceのLlama-3コードをコピーして使用。
- コスト計算:
g5dn.12xlargeインスタンス使用料金: 1時間あたり$3.912。- 月間コスト換算では、100万トークンあたり約$167.17のコストが発生。
- ChatGPT 3.5 Turboの料金: 100万トークンあたり$1。
問題解決
- 問題の認識: 既存の方法が誤っていたことに気づき、
vLLMを使用。 - 改善結果:
- APIサーバーをホスティングするために
rayとvllmをインストール。 —tensor-parallel-size 4オプションで4基のGPUをすべて使用。- 結果: 応答時間は2044msまで大幅に改善。
- コスト計算では、100万トークンあたり約$17。
- APIサーバーをホスティングするために
代替アプローチ
- 自前ハードウェアでのホスティング:
- 必要なハードウェア: 4x NVidia Tesla T4 GPU、eBayで約$700。
- その他の費用を含め、総セットアップ費用は約$3,800。
- 月間エネルギーコストは約$50。
- 月間総コストは約$100で計算。
- 損益分岐点に達するまで約66か月(5.5年)。
結論
- 長所: 自前ハードウェアでホスティングすればコスト削減が可能。
- 短所: ハードウェア管理とスケーリングが必要
- 100%活用を前提とするのは非現実的なため、実際の状況に合わせた評価が必要。
4件のコメント
モデルを構築するわけでもなく、
Llama 8Bで推論するだけなのに、機材が大げさですね。
24G GPU(3090や4090)なら十分です(200万~300万ウォン)。月の電気代も3万ウォン程度で十分。
書いてから見たら、下にありますね(笑)
5.5年は長いですね..
8Bをトイレベル以上で運用できますか?
Hacker Newsの意見