大規模言語モデルの予想外のスキル習得速度はどれほど速いのか?
- 大規模言語モデル(Large Language Models, LLMs)の能力に関する新たな研究は、いわゆる『急発進能力』が実際には段階的かつ予測可能に発達すると示唆している。
- 研究者たちはこれらの能力を『急発進』的な振る舞いとして描写し、これは物理学で液体が氷に変わる相転移に似ているとたとえてきた。
- しかし、スタンフォード大学の研究チームは、こうした能力の突然の出現は、研究者たちがLLMの性能を測定する方法の結果にすぎないと主張している。
大規模言語モデルの性能測定
- 大規模言語モデルは、膨大なテキストデータセットを分析し、頻繁に一緒に現れる単語同士のつながりを見つけ出す。
- モデルの規模はパラメータ数で測定され、パラメータが多いほどLLMはより多くのつながりを見つけられる。
- GPT-2は15億個のパラメータを持ち、GPT-3.5は3,500億個、GPT-4は1.75兆個のパラメータを使用する。
予想外の能力の段階的な発達
- スタンフォード大学の研究チームは、LLMの能力は突然かつ予測不可能に現れるのではなく、段階的で予測可能だと主張している。
- たとえば、3桁の足し算では、GPT-3とLaMDAはパラメータが少ないと正確な計算に失敗したが、パラメータが増えるにつれて突然足し算ができるようになった。
- 研究チームは、正確さだけでLLMを評価する代わりに部分点を与える測定方式を用い、LLMが徐々に正しい数字の並び順を予測することを発見した。
他の科学者たちの見解
- 他の科学者たちは、この研究が『急発進』という概念を完全に解消するものではないと指摘している。
- どの測定基準を使うべきか、またいつLLMの性能が急激に向上するのかを予測する方法は、依然として不確実である。
- 一部の科学者は、以前の『急発進』報告は正しかったと主張し、算術のような能力では正答こそがすべてだと強調している。
GN⁺の見解
- この研究は、人工知能の安全性と潜在的なリスクに関する議論に重要な影響を与える可能性がある。LLMの能力が予測可能に発達するなら、AIの安全な開発と管理における重要な指標になりうる。
- 研究結果が実際のAI開発に適用される際、開発者は性能測定方式の重要性を認識し、より精緻な評価手法を考案する必要がある。
- この記事は、AI研究の最前線で起きている変化と進展を理解する助けとなり、とりわけAIモデルの性能評価方法に対する新しい視点を提供する。
- 批判的な観点から見ると、この研究結果はすべてのLLMの性能向上を説明できるわけではなく、より大規模で複雑なモデルでは『急発進』現象が依然として起こりうることを認める必要がある。
- この技術に関連して、OpenAIのGPTシリーズはすでに市場で広く使われており、この研究はGPTに類似した他のLLMsの開発にインスピレーションを与える可能性がある。
1件のコメント
Hacker Newsの意見
研究に関するいくつかの問題点
将来予測の難しさ
測定基準の変更による結果の変化
論文タイトル: "Are Emergent Abilities of Large Language Models a Mirage?"
能力の急激な変化に関する観察
部分点アプローチとモデル訓練
能力の段階的な出現
大規模言語モデル(Large Language Models, LLMs)の限界
測定基準をめぐる混乱