20の質問で60のLLMに聞く

(benchmarks.llmonitor.com)

8 ポイント投稿者 GN⁺ 2023-09-10 | 1件のコメント | WhatsAppで共有

20問の質問セットを使って、60を超える大規模言語モデル（Large Language Models, LLMs）の性能をテストし、各LLMの回答を整理
これらの質問は、LLMの基本的な推論、指示追従、創造性をテストするために設計されている
LLMからの応答はSQLiteデータベースに保存
質問は、簡単な算数の問題から高校生に量子場理論を説明するような、より複雑な課題まで幅広い
このスクリプトには、文章の翻訳、コード内のバグの特定、Python関数の生成など、LLMsが実行すべきタスクも含まれている
著者は、OpenRouter、TogetherAI、OpenAI、Cohere、Aleph Alpha、AI21のAPIを使ってスクリプトを実行
- 各モデルに合わせて最適化されたストップシーケンスとプロンプト形式を使い、スクリプトを改善する予定
- 今後のアイデアとしては、公開投票によるELOレーティングの計算、2つのモデルの並列比較、コミュニティ投稿のプロンプトなど

1件のコメント

GN⁺ 2023-09-10

Hacker Newsの意見

さまざまな大規模言語モデル（Large Language Models, LLMs）のベンチマークを実行するための汎用ハーネスをユーザーが作成し、他の人が自分のデータでモデルをテストできるよう奨励している。このライブラリは OpenAI、Anthropic、Google、Llama、Codellama、Replicate、Ollama のモデルをサポートしている。
Vercel の AI Playground は、複数の LLMs に同時に質問できる便利なツールとして強調されているが、現在サポートしているのは 24 個だけで、60 個ではない。
記事の LLMs ベンチマーキング手法は、試験の合格のような従来の方法よりも現実的だと称賛されている。しかし、質問が訓練セットの一部となって結果を歪める可能性について懸念が示されている。
家族関係に関する質問への LLMs の応答に違いが見られ、あるユーザーは、記事がすべての LLMs が間違えたと主張した質問に対して GPT-4 が正しく答えたと報告している。
Falcon Instruct (40B) は、休暇に関するジョークにより「最も面白いモデル」としてユーモラスに強調されている。
「TheoremQA: 定理ベースの [STEM] 質問応答データセット」や「Awesome-legal-nlp」を含む、LLMs 向けの追加ベンチマークが提案されている。
ChatGPT 3.5 は冗長な応答について批判されており、あるユーザーは、しばしば不必要に長い説明をすると指摘している。
AI の進歩に感嘆し、あるユーザーは、LLMs が「Kubernetes に賛成し、かつ反対する、倫理的で性的でない俳句」を生成できる能力に言及している。
CodeLlama モデルの性能について疑問が提起されており、あるユーザーは記事に記載されたものよりはるかに良い結果を報告している。
LLMs への関心にもかかわらず、一部のユーザーはモデルの応答品質に失望を表明しており、特に音楽理論に関する質問について、またこれらのモデルが時間とともに大きく改善するのか疑問を呈している.

20の質問で60のLLMに聞く

関連記事

1件のコメント

Hacker Newsの意見