Meta、AIベンチマーク不正操作論争

(theverge.com)

4 ポイント投稿者 GN⁺ 2025-04-09 | 2件のコメント | WhatsAppで共有

Metaは新しいLlama 4モデル2種類を発表：小型モデルのScoutと中規模モデルのMaverick
MetaはMaverickがGPT-4oとGemini 2.0 Flashより優れた性能を示すと主張
MaverickはAIモデル比較プラットフォームのLMArenaで2位を獲得
公開されたELOスコアは1417点で、GPT-4oより高く、Gemini 2.5 Proよりわずかに低い数値
高いELOスコアは、そのモデルが他モデルとの比較評価でより頻繁に勝利することを意味する

ベンチマーク不正操作疑惑の提起

AI研究者たちがMetaの文書で不自然な点を発見
MaverickのLMArenaで使用されたバージョンは、一般公開されたバージョンとは異なる
MetaはLMArenaに対話最適化実験バージョンを使用したと明らかにした
このバージョンは「対話性能(conversationality)」に焦点を当てた実験モデル

コミュニティおよびプラットフォームの反応

LMArenaは、Metaのポリシー解釈が期待と一致していないと公式見解を発表
Metaは実験バージョンであることを明確に表示しておらず、これを受けてLMArenaはリーダーボードポリシーを変更すると発表
今後、公正で再現可能な評価を保証するための措置

Metaの説明

Metaの広報担当Ashley Gabrielはメール声明で、さまざまな実験用バージョンをテストしていると説明
「Llama-4-Maverick-03-26-Experimentalは対話に最適化された実験モデルで、LMArenaでも優れた性能を示した」と述べた

2件のコメント

ndrgrd 2025-04-10

やはりベンチマークに細工はつきものですね。

GN⁺ 2025-04-09

Hacker Newsの意見

Llama 4 のリリースは Meta にとって大きな失敗に見える。モデルの性能が良くない。報道はどれも否定的
- 予想どおりではあるが、Meta が次に何をするのか気になる。現時点では他のオープンモデルに後れを取っているように見え、MoE への野心的な賭けはうまくいかなかったようだ
- Zuck がリリースを強行したのか気になる。準備不足だと分かっていたはずだ
著作権のある資料を盗んだ企業がまたしても非倫理的な行動をしていることに衝撃を受ける
Meta が初めて捕まった
LMArena が公開したサンプルバトル（H2H）を見るのが最も分かりやすい。Meta のモデル出力はあまりにも冗長でおしゃべりすぎる。判定を見ると、人々が LMArena の順位を無視するのも当然だ
LMArena はもう役に立たないのか?
- 同じユーザー提供クエリで 2 つのモデルを動かすという側面があると思っていた。これは操作できないはずだ
- 「会話最適化」がどういう意味なのか理解できない。これが LMArena にどんな利点をもたらすのか分からない
Meta は人々が試せるひどい公開 AI（meta.ai）を持っていて、自ら損をしている。私は定期的に GPT 4o、Deepseek、Grok、Google Gemeni 2.5 の Web 版を使っている
- Meta はいつも最悪なので、もう気にしていない
誰も驚かないだろう。さらに Goodhart の法則がまた作用している
リーダーボード上位はクローズドな重みの実験モデルで埋め尽くされている
これは、プロンプターにもっとおべっかを使ったり、さらにご機嫌取りをするよう設計されたものだと信じている。もし本当なら、比較している人たちのことが心配になる

Meta、AIベンチマーク不正操作論争

ベンチマーク不正操作疑惑の提起

コミュニティおよびプラットフォームの反応

Metaの説明

関連記事

2件のコメント

Hacker Newsの意見