4 ポイント 投稿者 GN⁺ 2024-05-15 | 2件のコメント | WhatsAppで共有

Needle in a Needlestack: GPT-4oのメモリにおけるブレークスルー! (NIAN コード) - Tom Burns

新しいベンチマークの紹介

  • Needle in a Needlestack は、LLM(大規模言語モデル)がコンテキストウィンドウ内の情報にどれだけうまく注意を向けられるかを測定する新しいベンチマーク。
  • NIAN は数千のリメリックを含むプロンプトを生成し、特定の位置にある1つのリメリックについて質問する。
  • 例のプロンプトには約2500個のリメリックが含まれる。
  • これまで、このベンチマークで非常に良い成績を出した LLM はなかった。

GPT-4 Turbo と Claude-3 Sonnet の試み

  • GPT-4 TurboClaude-3 Sonnet の試み:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

GPT-4o のブレークスルー

  • GPT-4o が大きなブレークスルーを達成。
  • このベンチマークでほぼ完璧な成績を示した。
  • OpenAI が GPT-4 Turbo よりも GPT-4o をはるかに優れたものにした方法を、いつ公開するのか気になる。

Mistral モデルの性能

  • Mistral のモデルは非常に使いやすい。API はとても高速で一貫している。
  • しかし、Mistral の新しい 8x22 モデルはこのベンチマークでかなり苦戦している。
    • プロンプトの冒頭部分であっても、質問に正しく答えられる確率は 50% にすぎない。
    • Mistral large はより良い結果を示したが、それでも正確度は 70% にとどまった。
  • 参考: トークン数の推定には OpenAI のトークナイザーを使用。Mistral は約 25% 多くのトークンを生成する別のトークナイザーを使用しているため、グラフ上のトークン数は実際より少ない。
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

短いプロンプトでの性能

  • モデルは短いプロンプトでははるかに良い成績を示す。
  • 例: Mistral 7b の 16k トークンプロンプトと 32k トークンプロンプトでの性能比較。
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

情報反復の重要性

  • 情報を繰り返すことが、このテストでは大きな差を生む。
  • GPT-3.5-turbo は、プロンプト内で質問対象のリメリックが 10 回繰り返されると、成績が劇的に向上する。
    • limerick used once
    • limerick used 10 times

ベンチマークコードと追加情報

  • このベンチマークのコードは こちら で確認できる。
  • 追加のモデル対応を簡単に加えられる。
  • 回答の評価方法と質問の検証方法の詳細は、方法論ページ で確認できる。
  • 質問があれば 連絡先 まで。
  • このサイトはオープンソース。このページを改善.

GN⁺の意見

  • 技術的進歩: GPT-4o の成果は、LLM のメモリと注意力の向上における大きな前進を示している。これは、より複雑な作業を実行できる可能性を開く。
  • モデル選定: さまざまなモデルの性能を比較する際には、特定の作業に合ったモデルを選ぶことが重要。たとえば、短いプロンプトでより良い結果を示すモデルを選ぶのが有利な場合がある。
  • 反復学習の重要性: 情報の反復がモデル性能に与える影響を考慮する必要がある。これはデータ準備やプロンプト設計における重要な要素になり得る。
  • オープンソースの利点: このベンチマークがオープンソースである点は、研究者や開発者が自由にアクセスし、改善できる機会を提供する。これはコミュニティの発展に貢献し得る。
  • 今後の展望: GPT-4o のようなモデルの進化は、AI のさまざまな応用分野に革新をもたらし得る。しかし、こうした技術を導入する際には、倫理的配慮と責任ある利用が必要。

2件のコメント

 
wedding 2024-05-18

技術の進歩は本当にものすごいです..(泣)

 
GN⁺ 2024-05-15
Hacker Newsの意見

Hacker Newsコメントまとめ要約

  • 法的文書の比較における誤り

    • 2つの小さな法的文書を比較した際、GPT-4が一部の項目を片方の文書にしかないと誤認した。実際には同一内容だった。
    • 単一サンプルではあるが、90%の正確度は疑わしい。約80kトークンだった。
  • limericksデータセットがベース

    • 2021年に公開されたlimericksデータセットに基づいている。GPT-4oがこのデータセットで訓練された可能性が高い。
    • NIANチームは別のモデルを使ってlimericksを生成し、データセットに含まれていないことを確認すべきだ。
  • Needle in the Haystackテストの限界

    • このテストは、モデルの実際の長文コンテキスト処理能力を限定的にしか示さない。初期モデルがこのテストで低い性能だったため主に使われてきた。
    • 最近のモデルはこのテストで良い性能を示すが、32Kトークン以降では複雑なタスクの実行能力が大きく低下する。
    • RULERテストのほうがより良い評価方法だ。
  • Gemini Pro 1.5の性能

    • Gemini Pro 1.5は『Moby Dick』全文とByung Chul-Hanの全著作を処理できた。質問への回答を正確に見つけ出した。
  • "Synthesis from Haystack"テストの必要性

    • 単純な検索ではなく、深い理解や関連付け、抽象化をテストする方法が必要だ。
    • 人は本を読むとき全体的な直感を持つ。これを定量化する方法が必要だ。
  • GPTを使ったHTMLレイアウト変換

    • GPTを使えば、動的データを美しいHTMLレイアウトへリアルタイムに変換できる。開発時間を節約でき、データ構造が変わった場合でもHTMLを更新できる。
    • 以前の試みでは、GPT-4 Turboがコンテキストや指示を無視することがあった。
  • GPT-4oの向上した注意力

    • GPT-4oはGPT-4 TurboやClaude-3 Sonnetと比べ、入力ウィンドウ全体にわたってよりよく注意を向けられる。
    • "Needle In A Needlestack"テストは良い次のステップだ。何千ものlimericksを含むプロンプト内で、特定の位置にあるlimerickについての質問を含める。
  • LLM評価の難しさ

    • 公開インターネット上で実際のLLM評価をきちんと行っている人はほとんどいない、という意見。
  • 訓練データセットへの疑問

    • GPT-4oがこのデータセットで訓練されていないと、どうやって分かるのかという疑問。
    • テストデータが訓練データに含まれていないことが分かって初めて意味がある。