5 ポイント 投稿者 ironman0722 2024-11-19 | 1件のコメント | WhatsAppで共有
  • 2025年度大学修学能力試験の国語で、O1-Previewが97点という驚異的な成績を記録
    • 8番(3点)非文学文の設問で誤答を記録
      • 論理の誤りにより、不正解である3番を選択
  • ベンチマーク過程についてさらに知りたい方のために、実験過程と追加内容を整理したブログも書きましたので、参考にしてください!
  • 2025年大学修学能力試験国語 LLM ベンチマークにおける gpt モデルの結果
    🥇 1st. o1-Preview: 97点(1等級)
    🥈 2nd. o1-mini: 78点(4等級)
    🥉 3rd. gpt-4o: 75点(4等級): gpt-4o
    4th. gpt-4o-mini: 59点(5等級)
    5th. gpt-3.5-turbo: 16点(8等級)
  • 大学修学能力試験 LLM ベンチマーク・リーダーボードプロジェクトの目的
    1. Human performance と LLM performance を比較できるベンチマーク情報の共有
    2. 韓国語の言語能力を評価する、韓国で最も権威ある KICE 評価院の厳選ベンチマークデータセット
    3. 毎年更新される新しい大学修学能力試験国語ベンチマークデータセットによるデータリーケージの防止
    4. 特定の国家や企業に依存しないオープンソース LLM を韓国の大学修学能力試験で1等級に到達させること

  • 本プロジェクトは Markr.AI が進めたプロジェクトです。
  • 本ベンチマークは AutoRAG オープンソース を活用して実施しました!
  • リーダーボードに、2023年大学修学能力試験国語をベンチマークできる チュートリアル を更新しました!
  • 気になる点があれば、いつでもご連絡ください!

1件のコメント

 
ironman0722 2024-11-22

ブログのリンクが切れていましたね!コメントにもう一度載せます!
https://velog.io/@minsing-jin/…