Needle in a Needlestack: GPT-4oのメモリにおけるブレークスルー! (NIAN コード) - Tom Burns
新しいベンチマークの紹介
- Needle in a Needlestack は、LLM(大規模言語モデル)がコンテキストウィンドウ内の情報にどれだけうまく注意を向けられるかを測定する新しいベンチマーク。
- NIAN は数千のリメリックを含むプロンプトを生成し、特定の位置にある1つのリメリックについて質問する。
- 例のプロンプトには約2500個のリメリックが含まれる。
- これまで、このベンチマークで非常に良い成績を出した LLM はなかった。
GPT-4 Turbo と Claude-3 Sonnet の試み
- GPT-4 Turbo と Claude-3 Sonnet の試み:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
GPT-4o のブレークスルー
- GPT-4o が大きなブレークスルーを達成。
- このベンチマークでほぼ完璧な成績を示した。
- OpenAI が GPT-4 Turbo よりも GPT-4o をはるかに優れたものにした方法を、いつ公開するのか気になる。
Mistral モデルの性能
- Mistral のモデルは非常に使いやすい。API はとても高速で一貫している。
- しかし、Mistral の新しい 8x22 モデルはこのベンチマークでかなり苦戦している。
- プロンプトの冒頭部分であっても、質問に正しく答えられる確率は 50% にすぎない。
- Mistral large はより良い結果を示したが、それでも正確度は 70% にとどまった。
- 参考: トークン数の推定には OpenAI のトークナイザーを使用。Mistral は約 25% 多くのトークンを生成する別のトークナイザーを使用しているため、グラフ上のトークン数は実際より少ない。
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
短いプロンプトでの性能
- モデルは短いプロンプトでははるかに良い成績を示す。
- 例: Mistral 7b の 16k トークンプロンプトと 32k トークンプロンプトでの性能比較。
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
情報反復の重要性
- 情報を繰り返すことが、このテストでは大きな差を生む。
- GPT-3.5-turbo は、プロンプト内で質問対象のリメリックが 10 回繰り返されると、成績が劇的に向上する。
- limerick used once
- limerick used 10 times
ベンチマークコードと追加情報
- このベンチマークのコードは こちら で確認できる。
- 追加のモデル対応を簡単に加えられる。
- 回答の評価方法と質問の検証方法の詳細は、方法論ページ で確認できる。
- 質問があれば 連絡先 まで。
- このサイトはオープンソース。このページを改善.
GN⁺の意見
- 技術的進歩: GPT-4o の成果は、LLM のメモリと注意力の向上における大きな前進を示している。これは、より複雑な作業を実行できる可能性を開く。
- モデル選定: さまざまなモデルの性能を比較する際には、特定の作業に合ったモデルを選ぶことが重要。たとえば、短いプロンプトでより良い結果を示すモデルを選ぶのが有利な場合がある。
- 反復学習の重要性: 情報の反復がモデル性能に与える影響を考慮する必要がある。これはデータ準備やプロンプト設計における重要な要素になり得る。
- オープンソースの利点: このベンチマークがオープンソースである点は、研究者や開発者が自由にアクセスし、改善できる機会を提供する。これはコミュニティの発展に貢献し得る。
- 今後の展望: GPT-4o のようなモデルの進化は、AI のさまざまな応用分野に革新をもたらし得る。しかし、こうした技術を導入する際には、倫理的配慮と責任ある利用が必要。
2件のコメント
技術の進歩は本当にものすごいです..(泣)
Hacker Newsの意見
Hacker Newsコメントまとめ要約
法的文書の比較における誤り
limericksデータセットがベース
Needle in the Haystackテストの限界
Gemini Pro 1.5の性能
"Synthesis from Haystack"テストの必要性
GPTを使ったHTMLレイアウト変換
GPT-4oの向上した注意力
LLM評価の難しさ
訓練データセットへの疑問