すべてのLLM開発者が知っておくべき数字
(github.com/ray-project)- LLMを使用する際に重要な数字のまとめ。
- プロンプトに「簡潔に」と入れると、コストを40〜90%節約可能。
- GPT-4と比べて、GPT-3.5 Turboは価格が50倍安い。
- ベクトル検索のためにOpenAI Embeddingsを使うと、GPT-3.5 Turboより20倍安い。
- LLaMa級のLLMを学習させるには、100万ドル(約13億ウォン)がかかる。
- GPUごとのメモリ容量 - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
- 通常、モデルサイズの2倍のメモリが必要 - 7B = 14GB
- 埋め込みモデルは通常1GB以下のメモリを使用する。
- LLMリクエストをバッチ処理すると、10倍以上速くなる可能性がある。
- 13Bモデルはトークンあたり約1MBが必要なため、リクエストをバッチ処理するとメモリ要件が大幅に増加する。
2件のコメント
短くすることはいろいろ試してみたのですが、記事で言っている
be consiseも一度入れてみようと思います。let's think step by stepとの組み合わせも試してみる必要がありそうですね。