4 ポイント 投稿者 GN⁺ 2025-04-09 | 2件のコメント | WhatsAppで共有
  • Metaは新しいLlama 4モデル2種類を発表:小型モデルのScoutと中規模モデルのMaverick
  • MetaはMaverickがGPT-4oとGemini 2.0 Flashより優れた性能を示すと主張
  • MaverickはAIモデル比較プラットフォームのLMArenaで2位を獲得
  • 公開されたELOスコアは1417点で、GPT-4oより高く、Gemini 2.5 Proよりわずかに低い数値
  • 高いELOスコアは、そのモデルが他モデルとの比較評価でより頻繁に勝利することを意味する

ベンチマーク不正操作疑惑の提起

  • AI研究者たちがMetaの文書で不自然な点を発見
  • MaverickのLMArenaで使用されたバージョンは、一般公開されたバージョンとは異なる
  • MetaはLMArenaに対話最適化実験バージョンを使用したと明らかにした
  • このバージョンは「対話性能(conversationality)」に焦点を当てた実験モデル

コミュニティおよびプラットフォームの反応

  • LMArenaは、Metaのポリシー解釈が期待と一致していないと公式見解を発表
  • Metaは実験バージョンであることを明確に表示しておらず、これを受けてLMArenaはリーダーボードポリシーを変更すると発表
  • 今後、公正で再現可能な評価を保証するための措置

Metaの説明

  • Metaの広報担当Ashley Gabrielはメール声明で、さまざまな実験用バージョンをテストしていると説明
  • Llama-4-Maverick-03-26-Experimentalは対話に最適化された実験モデルで、LMArenaでも優れた性能を示した」と述べた

2件のコメント

 
ndrgrd 2025-04-10

やはりベンチマークに細工はつきものですね。

 
GN⁺ 2025-04-09
Hacker Newsの意見
  • Llama 4 のリリースは Meta にとって大きな失敗に見える。モデルの性能が良くない。報道はどれも否定的
    • 予想どおりではあるが、Meta が次に何をするのか気になる。現時点では他のオープンモデルに後れを取っているように見え、MoE への野心的な賭けはうまくいかなかったようだ
    • Zuck がリリースを強行したのか気になる。準備不足だと分かっていたはずだ
  • 著作権のある資料を盗んだ企業がまたしても非倫理的な行動をしていることに衝撃を受ける
  • Meta が初めて捕まった
  • LMArena が公開したサンプルバトル(H2H)を見るのが最も分かりやすい。Meta のモデル出力はあまりにも冗長でおしゃべりすぎる。判定を見ると、人々が LMArena の順位を無視するのも当然だ
  • LMArena はもう役に立たないのか?
    • 同じユーザー提供クエリで 2 つのモデルを動かすという側面があると思っていた。これは操作できないはずだ
    • 「会話最適化」がどういう意味なのか理解できない。これが LMArena にどんな利点をもたらすのか分からない
  • Meta は人々が試せるひどい公開 AI(meta.ai)を持っていて、自ら損をしている。私は定期的に GPT 4o、Deepseek、Grok、Google Gemeni 2.5 の Web 版を使っている
    • Meta はいつも最悪なので、もう気にしていない
  • 誰も驚かないだろう。さらに Goodhart の法則がまた作用している
  • リーダーボード上位はクローズドな重みの実験モデルで埋め尽くされている
  • これは、プロンプターにもっとおべっかを使ったり、さらにご機嫌取りをするよう設計されたものだと信じている。もし本当なら、比較している人たちのことが心配になる