7 ポイント 投稿者 xguru 2025-01-08 | 3件のコメント | WhatsAppで共有
  • AIの進歩により役割を失ったベンチマークを整理した(最新モデルでは測定不可)
    • ベンチマークとしてはまだ有用だが、「AIがXを行えるか」という問いには意味のある貢献をできない
  • 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
  • 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
  • 2022: BIG-Bench
  • 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
  • 2018: SWAG

3件のコメント

 
kandk 2025-01-08

SQuADもなくなってしまうのでしょうか?

 
nutella 2025-01-08

「Killed by Google」を思い出します。

 
xguru 2025-01-08

まだ特定のベンチマークについては賛否があるものの、興味深いですね。
https://news.ycombinator.com/item?id=42606231