プロンプトエンジニアリングで大学修学能力試験の国語1等級に挑戦するオープンソースプロジェクト
(github.com/NomaDamas)- 従来3等級(86点、上位22%)だったGPT-4の大学修学能力試験・国語の成績を、CoTベースのプロンプトエンジニアリングで2等級(94点、上位5%)へ向上。
- 特定の文法問題タイプに特化したプロンプトを使用し、最大で1等級(96点、上位4%)まで達成。
- プロンプト全文とソースコード、使用した大学修学能力試験・国語データセットをGitHubでオープンソース公開。
- まだ不十分だとされるLLMの韓国語性能について、GPT-4はすでに最上位レベルの言語能力に到達していることを示す事例。
こんにちは。自作のCoTプロンプトを用いて、GPT-4が大学修学能力試験の国語を非常にうまく解けるようにしてみました。
上位5%以上、100点に到達するプロンプトはまだ見つけられておらず、APIコストの問題で2023年度の大学修学能力試験しかテストできていないため、多くの方々の協力を得たく、このようにオープンソースとして公開します。公開したソースコードで自由に新しいプロンプトを試し、さらに発展した形のプロンプト手法を見つけてもらえればと思います。
7件のコメント
興味深いプロジェクトですね〜
これを5択から選ぶ問題としてではなく、それぞれの選択肢を True / False として見る分類問題としてアプローチする方法はどうでしょうか?
CoT で各選択肢について独立に真か偽かを判断させ、そのうえで5つの思考の根拠を見て最後に最終決定を下すように Agent を構成すれば、より低性能なモデルでもより高品質な結果を見られます。
現在構成されている方法は1番の選択肢から評価に入るため、その後の選択肢を評価する際に前の選択肢に対する先入観が加わってしまいます。GPT-4 がすごい理由の一つは、モデルが十分に大きくなることでこうした先入観の影響を受けにくい点ですが、これも文章が長くなるほど効果が落ちる、という論文を見た気がします。
(査読前の arXiv 論文でしたが……それなりにもっともらしい内容ではありました。)
もちろん API コストは6倍になりますが、個人的には、プロンプティングさえうまくやれば大学入学共通テストの国語くらいなら GPT-3.5 でも十分だと思います。
おっしゃるとおり、5つを独立して評価すると、正答が2つ以上になったり、逆に1つもなくなったりする現象も起きるんですよね。そうなると、各正答と解説をもう一度見て判断するためのプロンプトを追加で入れてあげる必要がありますし。
あるいは、5つの選択肢それぞれについて何度もプロンプトを試し、最も多く答えとして選ばれた選択肢を正答にする方法もありそうですが、おっしゃるようにAPIコストがだんだん雪だるま式に膨らみそうですね;; すでに今のプロンプトだけでも、大学修学能力試験を1回受けさせるのに4〜5ドルもかかっているので T_T
コスト削減も考えなければならないエンジニアリングの世界へようこそ(笑)
名前が「評価院スレイヤー」なんですね(笑)
わあ、すごいですね。
Step by step以降、プロンプトエンジニアリングがものすごく進歩しているのを感じますね。
(そして、GPT-4レベルの韓国語能力を持つオープンソースLLMは登場しうるのでしょうか……)
韓国語のオープンソースLLMはまだGPT-3.5にもかなり及ばないので T_T ぜひオープンソースLLMがGPT-4レベルになってほしいです。