12 ポイント 投稿者 xguru 2023-08-30 | 5件のコメント | WhatsAppで共有
  • 要約(Summarizing)はLLMの最も実用的な応用の1つだが、要約が正確であると信頼できなければならない
  • コストやデータアクセス性の問題からLlama 2のようなオープンソースLLMを使いたいが、正確性に確信が持てない
  • 実験を通じて、Llama-2-70bはgpt-4と同程度に事実性が高く、gpt-3.5-turboよりはるかに優れていることを発見
  • Anyscale Endpointを使ってLlama 2 7b/13b/70bとgpt-3.5/4を比較
    • 3者検証を経た373件のニュース報道文をラベル付けし、それぞれ正解と不正解を1つずつ提示
    • 各LLMに、どの記述が事実に基づく正確な要約かを選ばせた
  • 問題は2つ
    • 小さいモデルは指示にうまく従わない。より大きいモデルのほうが指示によりよく従う。そのため、別のLLMを使って小さいLLMの出力を理解させる必要があった
    • 順序バイアス。最初に何を提示するかによって選択が変わる。そのため、順序を入れ替えても確認した
  • 結果
    • 人間: 84%(過去研究ベース)
    • gpt-3.5-turbo: 正答率67.0%(順序バイアスの問題が深刻)
    • gpt-4: 正答率85.5%
    • Llama-2-7b: 非常に深刻な順序バイアスの問題。ランダム精度を下回る
    • Llama-2-13b: 正答率58.9%
    • Llama-2-70b: 81.7%
  • コスト(100K語を要約する場合)
    • gpt-4 : $5.48
    • gpt-3.5-turbo : $0.25
    • Llama-2-7b : $0.05
    • Llama-2-13b : $0.09
    • Llama-2-70b : $0.19

5件のコメント

 
mhj5730 2023-08-30

GPT-4 のコストは、ほかの GPT と比べて圧倒的ですね…

 
xguru 2023-08-30

何も考えずに使っていたら……月額 $120 のクォータを超過して、増量申請することになりました。
今は確かにかなり高いです。早く価格が GPT-3.5 レベルまで下がってくれるといいですね(笑)

 
kuroneko 2023-08-30

私は要約にはいつも KagiのUniversal Summarizer を使っています。
ChatGPTより手軽だと感じますし、トークンも無制限なので……

ただ、韓国語は単に結果を翻訳しているだけなので、確かにGPT 3.5と比べても韓国語の出来は少し劣るんですよね。
有料でしか使えないエンタープライズ級のモデルのほうが良さそうではあるのですが、要約1回あたり1ドルだったかで、個人用途で使うには負担でした。

 
ragingwind 2023-08-30

LLMにおいて、要約機能が重要な選定要素であることは確かなようです。

 
xguru 2023-08-30

問題は……この実験はLLMが要約したものではなく、要約された結果を評価したものだという点で……
使ってみると、GPT-4の要約性能はやはり確かに優秀なんですよね。韓国語翻訳にも問題がありますし。
GN⁺のコストのせいで心が動いたのですが……まだしばらくは普通にgpt-4を使うべきそうですね。