「Attention is all you need」論文の共同著者、今やトランスフォーマーに「うんざり」と語る
(venturebeat.com)- Transformerアーキテクチャを共同開発し、その名称を付けたLlion Jonesが、「AI研究はあまりにも狭くなりすぎた」として、トランスフォーマー中心のパラダイムから離れると発言
- ChatGPTやClaudeなど、主要なAIシステムの基盤技術であるトランスフォーマーが、むしろ次世代のイノベーションを妨げているという自己批判的な見立てを示した
- 安全なテーマばかりが選ばれ、創造性が失われているとして、「探索(Exploration)より活用(Exploitation)に偏った状態だ」と述べ、AI業界がより大きな革新を取り逃している可能性を警告
- トランスフォーマー論文が生まれた当時には自由な実験環境があったが、今では高額年俸でさえ研究の自由を保証しないと批判
- 彼はSakana AIで自由な探究を重視する研究文化を再現しようとしており、「次のトランスフォーマー級の革新はすぐ隣にあるかもしれない」と強調
トランスフォーマー創始者による自己批判と新たな宣言
- 2017年の「Attention Is All You Need」論文の共同著者であり、トランスフォーマーという名称を自ら考案したLlion Jonesが、サンフランシスコのTED AIカンファレンスでAI研究の画一化の問題を強く批判
- 10万回以上引用された歴史的論文の著者が、自らの創造物について「うんざりする」と公然と語った異例の発言
- 彼は現在、東京を拠点とするSakana AIのCTO兼共同創業者
- 「AI研究は単一の構造に閉じ込められている」と指摘し、トランスフォーマー研究に割く時間を減らして新たな構造を探っていると明かした
- 「AI分野にはかつてないほど多くの人材と資金があるのに、研究はむしろ狭くなっている」と強調
- この現象の原因として投資家からの収益圧力と競争激化を挙げ、研究者たちは創造性を失い、「論文を急いで出す」環境に置かれていると説明
資源は増えたのに創造性は減ったという逆説
- 現在のAI研究者は、同じテーマを扱う3〜4のグループが同時に作業していることを前提にし、他の研究チームに「先を越されていないか」を絶えず確認しなければならない状況
- 学術界の研究者は、リスクはあるが革新的なプロジェクトよりも、安全に出版できるテーマを選ぶ傾向が強まっている
- 競争圧力のため論文を急いで投稿し、科学的厳密さが損なわれ創造性も低下
- 研究者たちが「exploitation(活用)」に偏り、「exploration(探索)」をおろそかにしている状況
- AIアルゴリズムの探索-活用トレードオフの概念を当てはめると、現在のAI業界は過度な活用のせいで平凡な局所最適解に閉じ込められ、より良い代替案を見逃している可能性がある
- トランスフォーマー登場直前に研究者たちが再帰型ニューラルネットワーク(RNN)の漸進的改善に取り組んでいたのと同じように、今も単一アーキテクチャの変形ばかりに集中することで、差し迫った革新を逃す危険がある
「トランスフォーマー以前の時代の研究者たちが次の革新がまもなく現れると分かっていたなら、あれほど多くの時間を無駄にしなかっただろう」
トランスフォーマー誕生の背景:自由が生んだ革新
- Jonesは、トランスフォーマー研究が生まれた当時、上からの圧力がまったくない自由な雰囲気の中で始まったと振り返る
- 「昼食時の議論やホワイトボードへの落書きから始まったアイデアだった」と語る
- 研究チームには明確なアイデアがなかったものの、十分な時間と自由が与えられ、特定のプロジェクトや成果指標に対する経営陣からの圧力は一切なかった
- 特定本数の論文出版要求や指標改善の圧力はなし
- 実験と試行錯誤を通じた自律的な探索が可能だった
- 今日では、年収100万ドル超で採用された研究者ですら、大胆なアイデアを試すより自分の価値を証明しなければならないという圧力を感じている可能性がある
「彼らは自分が価値ある人材だと証明するために、安全な研究を選ぶ」
Sakana AIの実験:自由は高報酬に勝る
- JonesはSakana AIで、トランスフォーマー以前の自由な研究環境を再現しようと試みている
- 自然から着想を得た研究を追求
- 論文出版や競合他社との直接競争に対する圧力を最小限に抑制
- エンジニアのBrian Cheungの助言として、**「自分がやらなければ起きない研究だけをやるべきだ」**を共有
- 具体例として**「continuous thought machine」**プロジェクトを紹介
- 脳の同期メカニズムをニューラルネットワークに統合する研究
- 提案者は以前の職場や学界であれば懐疑的な反応を受け、時間を無駄にするなという圧力にさらされていただろうと述べた
- Sakanaでは1週間の探索時間が与えられ、結果としてNeurIPSの主要カンファレンスで注目される成功例へと発展
- 探索的な環境そのものが、人材獲得の強力な手段になり得ると主張
- 才能があり野心的な人ほど、自然とこうした環境を求めるようになる
トランスフォーマー成功の逆説:完成度が革新を阻む
- 彼はトランスフォーマーの成功が、「あまりに強力であるがゆえに、むしろ新しい革新を妨げている」と語る
- 「現在の技術が完璧であるほど、より良いものを探そうとする動機が失われる」と分析
- ただし彼はトランスフォーマー研究そのものを否定しているわけではなく、「今なお実質的な価値創出は可能だ」と付け加えた
- しかし「現在の莫大な資源と人材を考えれば、私たちははるかに広い探索ができる」と強調
- 彼の結論は協力と開かれた探索の重要性だった
- 「競争ではなく協力によって探索のダイヤルを上げるべきだ。そうしてこそ本当の進歩が可能になる」と発言
AI業界の「探索問題」が投げかける含意
- Jonesの警告は、AIのスケーリング限界と新しい構造探索の必要性が議論される今の時点で大きな響きを持っている
- 業界ではすでに、トランスフォーマーのスケーリングだけでは限界に達しつつあるという認識が広がっている
- 主要研究者たちが、現在のパラダイムの根本的な限界について公然と議論し始めている
- 規模(scale)だけでなく、アーキテクチャ革新がより高度なAIシステムには必要だという認識が拡大
- 年間数百億ドルがAI開発に投入され、研究所間の激しい競争によって秘密主義と高速な出版サイクルが強まる中、Jonesが描く自由な探索型研究はますます減っているのが現実
- Jonesの内部者としての視点が特別な重みを持つ理由
- 現在の分野を支配する技術を自ら生み出した人物として、革新的発見に必要な条件をよく理解している
- 自らの名声を築いたトランスフォーマーから自分自身で距離を置く決断が、メッセージに信頼性を与えている
- 次世代のトランスフォーマー級の革新が、探索する自由を持つ研究者たちによって発見されるのか、あるいは何千人もの研究者が漸進的改善を競う間に未開拓のまま残るのかという重要な岐路にある
- 結論としてJonesは、トランスフォーマーを最も長く研究してきた一人として、今こそ次の段階へ進むべき時だと誰よりもよく分かっている
「トランスフォーマー級のブレークスルーは、もしかするとすでに私たちのすぐそばにあるのに、競争の陰に隠れているだけなのかもしれない」
1件のコメント
Hacker Newsの意見
私から見ると、transformer は近年の歴史の中でも最も生産的な発明の一つだった
2017年に初めて登場してからわずか8年でさまざまな分野を完全に変え、ノーベル賞の受賞にさえ一部貢献した
本質的に重要なアイデアは 確率グラフィカルモデル(probabilistic graphical model) だと思う。確率をシーケンス、木、グラフと結びつけるアプローチは、今後も研究価値が高いと見る
transformerはすでに非常に優れた 普遍近似器(universal approximator) だ。多少の改善は可能だろうが、さらに「普遍的」なものを見つけるのは現実的に難しい
むしろ auto-regressive task、cross entropy loss、gradient descent 自体を見直す必要があると思う
私の分野にも影響はあったが、正直に言えばその影響はほとんど 否定的 だった
だが、まだその兆しは見えない。それでも希望はある
まだ論文としてまとめてはいないが、このアイデアに収束する動きがあちこちで見られる
1日にもっと時間があればいいのにと思う
Sakana AIの共同創業者兼CTOであるJonesがtransformerから手を引いて「次の大きなもの」を探していると言っていたが、正直 資金調達向けの宣伝 のように聞こえる
冗談めかして言えば、2024年に 特異点(singularity) が来ると思っていたのに、「収益化」と「自己改善」の間の時間差のせいで止まってしまった感じだ
transformerモデルからあらゆる金を搾り取るまで、あと20年は居座りそうだ
transformer専用というわけではないので、むしろこのインフラを最大限活用する 新しいアーキテクチャ を探そうとする誘因が生まれるだろう
ただ、人間が認識できるほど速くないだけだ
ほとんどの人にとって「AI」とは結局、目に見える ソフトウェア製品 のことだ
だが、その中核モデルは一部にすぎず、残りは何千人もの低賃金労働者が ヒューマンフィードバック によって磨き上げる工程だ
実際には 製品開発が90%、ML研究は10% にすぎない
論文の大半は博士号取得のための キャリア向け研究 であり、本当に実験的な研究は少数にとどまる
transformerはGPUにあまりにもよく適合するよう設計されているため、新しいモデルを作るには ハードウェアメーカー まで説得しなければならない状況だ
結局、ハードウェアとソフトウェアの同時進化 が必要になる
根本的な変化は 数十年単位 で起こるだろう
並列化可能なアルゴリズム が本質的に優れているからこそ、GPUがそれに合わせて発展したのだ
RNNは逐次的で並列化が難しいが、transformerはその ボトルネックを取り除いた
transformerベースではない研究も、依然として活発だと感じる
ただ チャットボット型CRM に資金が集まっているので、目立たないだけだ
新しいアーキテクチャが答えだとは思わない。むしろ データ効率 を高める方法が重要だ
Ilya Sutskeverも「インターネット全体がなくてもよい学習法」を強調していた
人間のように学習するには、単にインターネットのデータを食べさせる方式とは違っていなければならない
研究者の数は増えたが、非-transformer研究の割合 はむしろ減っているだろう
最後の部分の em dash(—) が多すぎて、この文章はtransformerが書いたみたいだという冗談を言っていた
transformerが あらゆる関心と資金 を吸い込んでしまった
研究者たちもtransformer産業に吸収された状態だ
大きな限界にぶつかるまでは、この状態が続きそうだ
エネルギー消費 が本当の限界となって、研究の方向が変わることを願う
xAIはデータセンター周辺に ガスタービン を設置して電力問題を解決したが、地域住民の健康問題を引き起こした
こうしたやり方はまもなく規制されると思う
人々は新しいモデルアーキテクチャの革新に執着しすぎる傾向がある
モデルは結局 データの圧縮表現 を作る道具にすぎない
より効率的に圧縮しても、能力が大きく変わるわけではない
むしろ 訓練効率 を高めることが重要だ。最近の 強化学習(RL) がその例だ
新しい構造を探索するのは過剰な執着ではなく、探索と活用のバランス を取ることだ
transformer中心の産業構造は、GPU/NPUの計算上の都合 によって形成されたのではないかと思う
より優れたAI技術が存在するかもしれないが、既存ハードウェアでは 計算コスト が高すぎる可能性がある
私たちの脳は500ワットも使わないのだから、それがヒントかもしれない