20の質問で60のLLMに聞く
(benchmarks.llmonitor.com)- 20問の質問セットを使って、60を超える大規模言語モデル(Large Language Models, LLMs)の性能をテストし、各LLMの回答を整理
- これらの質問は、LLMの基本的な推論、指示追従、創造性をテストするために設計されている
- LLMからの応答はSQLiteデータベースに保存
- 質問は、簡単な算数の問題から高校生に量子場理論を説明するような、より複雑な課題まで幅広い
- このスクリプトには、文章の翻訳、コード内のバグの特定、Python関数の生成など、LLMsが実行すべきタスクも含まれている
- 著者は、OpenRouter、TogetherAI、OpenAI、Cohere、Aleph Alpha、AI21のAPIを使ってスクリプトを実行
- 各モデルに合わせて最適化されたストップシーケンスとプロンプト形式を使い、スクリプトを改善する予定
- 今後のアイデアとしては、公開投票によるELOレーティングの計算、2つのモデルの並列比較、コミュニティ投稿のプロンプトなど
1件のコメント
Hacker Newsの意見