Killed by LLM
(r0bk.github.io)- AIの進歩により役割を失ったベンチマークを整理した(最新モデルでは測定不可)
- ベンチマークとしてはまだ有用だが、「AIがXを行えるか」という問いには意味のある貢献をできない
- 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
- 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
- 2022: BIG-Bench
- 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
- 2018: SWAG
3件のコメント
SQuADもなくなってしまうのでしょうか?
「Killed by Google」を思い出します。
まだ特定のベンチマークについては賛否があるものの、興味深いですね。
https://news.ycombinator.com/item?id=42606231