- Metaは新しいLlama 4モデル2種類を発表:小型モデルのScoutと中規模モデルのMaverick
- MetaはMaverickがGPT-4oとGemini 2.0 Flashより優れた性能を示すと主張
- MaverickはAIモデル比較プラットフォームのLMArenaで2位を獲得
- 公開されたELOスコアは1417点で、GPT-4oより高く、Gemini 2.5 Proよりわずかに低い数値
- 高いELOスコアは、そのモデルが他モデルとの比較評価でより頻繁に勝利することを意味する
ベンチマーク不正操作疑惑の提起
- AI研究者たちがMetaの文書で不自然な点を発見
- MaverickのLMArenaで使用されたバージョンは、一般公開されたバージョンとは異なる
- MetaはLMArenaに対話最適化実験バージョンを使用したと明らかにした
- このバージョンは「対話性能(conversationality)」に焦点を当てた実験モデル
コミュニティおよびプラットフォームの反応
- LMArenaは、Metaのポリシー解釈が期待と一致していないと公式見解を発表
- Metaは実験バージョンであることを明確に表示しておらず、これを受けてLMArenaはリーダーボードポリシーを変更すると発表
- 今後、公正で再現可能な評価を保証するための措置
Metaの説明
- Metaの広報担当Ashley Gabrielはメール声明で、さまざまな実験用バージョンをテストしていると説明
- 「
Llama-4-Maverick-03-26-Experimentalは対話に最適化された実験モデルで、LMArenaでも優れた性能を示した」と述べた
2件のコメント
やはりベンチマークに細工はつきものですね。
Hacker Newsの意見