Killed by LLM

xguru · 2025-01-08T09:33:01+09:00

AIの進歩により役割を失ったベンチマークを整理した（最新モデルでは測定不可）ベンチマークとしてはまだ有用だが、「AIがXを行えるか」という問いには意味のある貢献をできない 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7 ポイント投稿者 xguru 2025-01-08 | 3件のコメント | WhatsAppで共有

AIの進歩により役割を失ったベンチマークを整理した（最新モデルでは測定不可）
- ベンチマークとしてはまだ有用だが、「AIがXを行えるか」という問いには意味のある貢献をできない
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG

3件のコメント

kandk 2025-01-08

SQuADもなくなってしまうのでしょうか？

nutella 2025-01-08

「Killed by Google」を思い出します。

xguru 2025-01-08

まだ特定のベンチマークについては賛否があるものの、興味深いですね。
https://news.ycombinator.com/item?id=42606231

Killed by LLM

関連記事

3件のコメント