GPT-4.5 または GPT-5 が LMSYS でテスト中？

(rentry.co)

3 ポイント投稿者 GN⁺ 2024-04-30 | まだコメントはありません。 | WhatsAppで共有

背景

LMSYS が最近公開した gpt2-chatbot モデルは、これまで知られていた GPT-2 モデルを大きく上回る性能を示している
このモデルに関する情報は、LMSYS のサイトや他の場所でも見つけにくい
LMSYS のベンチマーク API の結果でも、このモデルだけが特に除外されている

GPT2-Chatbot モデルの主な特徴

自身を「GPT-4 ベース」だと主張し、「ChatGPT」と名乗っている
他組織が作成した OpenAI データセットで学習したモデルとは異なる特徴を示す
OpenAI の tiktoken tokenizer を使用しているように見える
OpenAI 固有のプロンプトインジェクション脆弱性が発見されている
他組織のモデルとは異なる出力特性を示す

GPT2-Chatbot についての主観的な見解

実際には GPT-4.5 や GPT-5 である可能性が高そう。出力品質は GPT-3.5 から GPT-4 への飛躍に匹敵するほど大きく向上している
LMSYS が独自モデルを学習したか、MoE に近い方式を使った可能性もあるが、OpenAI との関連性を踏まえると可能性は低そう

GPT2-Chatbot 公開目的に関する推論

OpenAI が LMSYS を通じてひそかに最新 GPT モデルをベンチマークするためのものに見える
一般的なベンチマーク結果を得つつ、過度な期待による否定的評価を避け、他社の牽制を最小限に抑えるため

もう一つの可能性についての考察

実際に GPT-2 アーキテクチャベースである可能性もある。最近の研究によれば、GPT-2 が特定領域で他モデルより優れた性能を示したため
GPT-4 を自称しているのは、GPT-4 で生成されたデータセットを活用したためかもしれない
LMSYS のスポンサーの 1 つである MBZUAI がその研究に関与していた点も注目に値する

GN⁺ の見解

gpt2-chatbot の正体をめぐる推測は興味深い。OpenAI の最新モデルである可能性が高いという見方に同意
一方で、GPT-2 アーキテクチャをベースにしている可能性も排除はできない。最近の研究結果を見ると、GPT-2 の潜在力は依然として高そう
OpenAI が LMSYS を通じてひそかにベンチマークを進めているという推測にも説得力がある。競合他社の牽制を避けつつ、客観的な評価を得られる戦略
今後も gpt2-chatbot の実体を明らかにするためのさまざまな実験や研究が続きそう。大規模言語モデル分野の進展を測るきっかけになりそう
そもそも「gpt2-chatbot」という名前自体が GPT-2 という印象を与えるためのものかもしれない。OpenAI が意図的につけた名前である可能性も排除できなさそう

まだコメントはありません。

まだコメントはありません。