Llama 2は要約においてGPT-4と同等の正確さで、30倍安価

xguru · 2023-08-30T11:08:02+09:00

要約（Summarizing）はLLMの最も実用的な応用の1つだが、要約が正確であると信頼できなければならないコストやデータアクセス性の問題からLlama 2のようなオープンソースLLMを使いたいが、正確性に確信が持てない実験を通じて、Llama-2-70bはgpt-4と同程度に事実性が高く、gpt-3.5-turboよりはるかに優れていることを発見 Anyscale Endpointを使ってLlama 2 7b/13b/70bとgpt-3.5/4を比較 3者検証を経た373件のニュース報道文をラベル付けし、それぞれ正解と不正解を1つずつ提示各LLMに、どの記述が事実に基づく正確な要約かを選ばせた問題は2つ小さいモデルは指示にうまく従わない。より大きいモデルのほうが指示によりよく従う。そのため、別のLLMを使って小さいLLMの出力を理解させる必要があった順序バイアス。最初に何を提示するかによって選択が変わる。そのため、順序を入れ替えても確認した結果人間: 84%（過去研究ベース） gpt-3.5-turbo: 正答率67.0%（順序バイアスの問題が深刻） gpt-4: 正答率85.5% Llama-2-7b: 非常に深刻な順序バイアスの問題。ランダム精度を下回る Llama-2-13b: 正答率58.9% Llama-2-70b: 81.7% コスト（100K語を要約する場合） gpt-4 : $5.48 gpt-3.5-turbo : $0.25 Llama-2-7b : $0.05 Llama-2-13b : $0.09 Llama-2-70b : $0.19

(anyscale.com)

12 ポイント投稿者 xguru 2023-08-30 | 5件のコメント | WhatsAppで共有

要約（Summarizing）はLLMの最も実用的な応用の1つだが、要約が正確であると信頼できなければならない
コストやデータアクセス性の問題からLlama 2のようなオープンソースLLMを使いたいが、正確性に確信が持てない
実験を通じて、Llama-2-70bはgpt-4と同程度に事実性が高く、gpt-3.5-turboよりはるかに優れていることを発見
Anyscale Endpointを使ってLlama 2 7b/13b/70bとgpt-3.5/4を比較
- 3者検証を経た373件のニュース報道文をラベル付けし、それぞれ正解と不正解を1つずつ提示
- 各LLMに、どの記述が事実に基づく正確な要約かを選ばせた
問題は2つ
- 小さいモデルは指示にうまく従わない。より大きいモデルのほうが指示によりよく従う。そのため、別のLLMを使って小さいLLMの出力を理解させる必要があった
- 順序バイアス。最初に何を提示するかによって選択が変わる。そのため、順序を入れ替えても確認した
結果
- 人間: 84%（過去研究ベース）
- gpt-3.5-turbo: 正答率67.0%（順序バイアスの問題が深刻）
- gpt-4: 正答率85.5%
- Llama-2-7b: 非常に深刻な順序バイアスの問題。ランダム精度を下回る
- Llama-2-13b: 正答率58.9%
- Llama-2-70b: 81.7%
コスト（100K語を要約する場合）
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19

5件のコメント

mhj5730 2023-08-30

GPT-4 のコストは、ほかの GPT と比べて圧倒的ですね…

xguru 2023-08-30

何も考えずに使っていたら……月額 $120 のクォータを超過して、増量申請することになりました。
今は確かにかなり高いです。早く価格が GPT-3.5 レベルまで下がってくれるといいですね（笑）

kuroneko 2023-08-30

私は要約にはいつも KagiのUniversal Summarizer を使っています。
ChatGPTより手軽だと感じますし、トークンも無制限なので……

ただ、韓国語は単に結果を翻訳しているだけなので、確かにGPT 3.5と比べても韓国語の出来は少し劣るんですよね。
有料でしか使えないエンタープライズ級のモデルのほうが良さそうではあるのですが、要約1回あたり1ドルだったかで、個人用途で使うには負担でした。

ragingwind 2023-08-30

LLMにおいて、要約機能が重要な選定要素であることは確かなようです。

xguru 2023-08-30

問題は……この実験はLLMが要約したものではなく、要約された結果を評価したものだという点で……
使ってみると、GPT-4の要約性能はやはり確かに優秀なんですよね。韓国語翻訳にも問題がありますし。
GN⁺のコストのせいで心が動いたのですが……まだしばらくは普通にgpt-4を使うべきそうですね。

Llama 2は要約においてGPT-4と同等の正確さで、30倍安価

関連記事

5件のコメント