すべてのLLM開発者が知っておくべき数字

kuroneko · 2023-05-18T10:45:09+09:00

LLMを使用する際に重要な数字のまとめ。プロンプトに「簡潔に」と入れると、コストを40〜90%節約可能。 GPT-4と比べて、GPT-3.5 Turboは価格が50倍安い。ベクトル検索のためにOpenAI Embeddingsを使うと、GPT-3.5 Turboより20倍安い。 LLaMa級のLLMを学習させるには、100万ドル（約13億ウォン）がかかる。 GPUごとのメモリ容量 - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB 通常、モデルサイズの2倍のメモリが必要 - 7B = 14GB 埋め込みモデルは通常1GB以下のメモリを使用する。 LLMリクエストをバッチ処理すると、10倍以上速くなる可能性がある。 13Bモデルはトークンあたり約1MBが必要なため、リクエストをバッチ処理するとメモリ要件が大幅に増加する。

(github.com/ray-project)

42 ポイント投稿者 kuroneko 2023-05-18 | 2件のコメント | WhatsAppで共有

LLMを使用する際に重要な数字のまとめ。
プロンプトに「簡潔に」と入れると、コストを40〜90%節約可能。
GPT-4と比べて、GPT-3.5 Turboは価格が50倍安い。
ベクトル検索のためにOpenAI Embeddingsを使うと、GPT-3.5 Turboより20倍安い。
LLaMa級のLLMを学習させるには、100万ドル（約13億ウォン）がかかる。
GPUごとのメモリ容量 - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
通常、モデルサイズの2倍のメモリが必要 - 7B = 14GB
埋め込みモデルは通常1GB以下のメモリを使用する。
LLMリクエストをバッチ処理すると、10倍以上速くなる可能性がある。
13Bモデルはトークンあたり約1MBが必要なため、リクエストをバッチ処理するとメモリ要件が大幅に増加する。

2件のコメント

xguru 2023-05-18

短くすることはいろいろ試してみたのですが、記事で言っている be consise も一度入れてみようと思います。

wedding 2023-05-20

let's think step by step との組み合わせも試してみる必要がありそうですね。

すべてのLLM開発者が知っておくべき数字

関連記事

2件のコメント