Generative AIの幕開け o1 - エージェント推論の時代の到来
(sequoiacap.com)- Generative AI革命が2年目に入り、研究は「速い思考」から「遅い思考」へと進化している
- 「速い思考」は事前学習済みの高速な応答を意味し、「遅い思考」はInference時にReasoningを行うことを意味する
- この進化により、新しいタイプのエージェントアプリケーションが登場している
- Generative AI市場の基盤レイヤーが安定化するにつれ、Microsoft/OpenAI、AWS/Anthropic、Meta、Google/DeepMindなど少数の大手企業が市場を主導している
- 経済的なエンジンと莫大な資本を持つ大手企業だけが競争に残っている
- 市場構造そのものは強固になっており、安価で豊富なnext-token予測が可能になるだろう
- LLM市場構造が安定化する中で、新たなフロンティアが登場
- 「System 2」的な思考様式が優先される推論レイヤーの開発と拡張に焦点が当てられている
- AlphaGoのようなモデルに着想を得て、このレイヤーは単純なパターンマッチングを超え、慎重な推論、問題解決、認知作用などをAIシステムに与えることを目指している
- 新しい認知アーキテクチャとユーザーインターフェースが、こうした推論能力がユーザーに届けられ、相互作用する方法を形作っている
Strawberry Fields Forever
- 2024年で最も重要なモデルアップデートはOpenAIのo1である(以前はQ*として知られ、Strawberryとも呼ばれていた)
- これは単にOpenAIがモデル品質リーダーボードの上位に立ったというだけでなく、現状維持のアーキテクチャに大幅な改善をもたらしたことを意味する
- 具体的には、これは推論時コンピューティングによって達成された真の「汎用推論能力」を持つ最初のモデルである
- 事前学習モデル vs 推論時コンピューティング
- 事前学習モデルは膨大な量のデータを使ってnext token predictionを行う
- スケールによる創発特性(emergent property)のひとつが基本的な推論だが、この推論は非常に限定的である
- 推論時コンピューティングとは、モデルに応答を出させる前に、立ち止まって考えるよう求めることを意味する
- そのためには推論時により多くのコンピューティングが必要になる
- この「立ち止まって考える」部分こそが推論(reasoning)である
AlphaGoとLLMの比較
- AlphaGoは2016年3月にソウルで囲碁の伝説的棋士イ・セドルと対戦し、ディープラーニングの歴史における最も重要な瞬間のひとつを生み出した
- AlphaGoは、単にパターンを模倣するだけではない「思考するAI」の姿を世界に示した
- AlphaGoと従来のゲームプレイAIシステムの違い
- AlphaGoはLLMと同様に、約3千万件の過去の対局手順データベースと自己対局を通じて、人間の専門家を模倣するよう事前学習された
- しかし、事前学習モデルから出てくる即時反応を返すのではなく、AlphaGoは時間をかけて立ち止まり、考える
- 推論時に、AlphaGoは広範な潜在的未来シナリオに対して探索またはシミュレーションを実行し、それらのシナリオを評価したうえで、期待値が最も高いシナリオ(または答え)で応答する
- AlphaGoに与えられる時間が多いほど、性能は向上する
- 推論時コンピューティングがまったくなければ、AlphaGoは最高の人間プレイヤーに勝つことはできない
- LLMでAlphaGoを再現するのが難しい理由
- 応答を評価する価値関数(value function)を構成することが難しい
- 囲碁では、ゲームを最後までシミュレーションして誰が勝つかを確認し、次の一手の期待値を計算できる
- コーディングでは、コードをテストして動作するかどうかを確認できる
- しかし、エッセイの下書き、旅行日程、長文ドキュメントの主要用語要約などは評価が難しい
- これが現在の方法論では推論が難しい理由であり、Strawberryが論理(例: コーディング、数学、科学)に近い領域では比較的強力である一方、オープンで非構造的な領域(例: ライティング)ではそうではない理由でもある
- Strawberryモデルの推論能力改善に向けた研究
- Strawberryの実装詳細は厳重に保護されているが、核となるアイデアは、モデルが生成した思考連鎖に対する強化学習に関係している
- モデルの思考連鎖を監査することは、人間の思考や推論の仕組みに似た、根本的で興味深いことが起きていることを示唆している
- たとえばo1は、推論時間スケーリングの創発特性として、行き詰まったときに引き返せる能力を示している
- また、人間のように問題について考える能力(例: 幾何学の問題を解くために球面上の点を視覚化する)や、新しい方法で問題について考える能力(例: 人間とは異なる方法でプログラミング競技の問題を解く)も示している
- 研究チームは、モデルの推論能力を高めるために、報酬関数計算の新しい方法やgenerator/verifierギャップを縮める新しい方法など、推論時コンピューティングを発展させるアイデアを豊富に持っている
- つまり、深層強化学習が再び注目を集めており、これが全体として新しい推論レイヤーを可能にしている
System 1からSystem 2 Thinkingへの跳躍
- 事前学習された本能的反応(「System 1」)から、より深く慎重な推論(「System 2」)への跳躍が、AIの次世代フロンティアである
- モデルは単に何かを知っているだけでは十分ではない
- モデルはリアルタイムで意思決定を行うために、いったん立ち止まり、評価し、推論する必要がある
- 事前学習はSystem 1レイヤーに相当する
- AlphaGoで数百万回分の囲碁の手を学習する場合でも、LLMでインターネット規模のテキストのペタバイトを学習する場合でも、事前学習の目的は人間のゲームプレイや言語のようなパターンを模倣することにある
- しかし模倣は、どれほど強力であっても真の推論ではない
- 特に、学習データセットの外にある複雑で新しい状況では、適切に考えることができない
- System 2思考が最新のAI研究の焦点である
- モデルが「立ち止まって考える」とき、単に学習済みのパターンを生成したり、過去データに基づく予測を吐き出したりしているのではない
- 可能性の範囲を生成し、潜在的な結果を考慮し、推論に基づいた意思決定を行っている
- System 1思考とSystem 2思考の適切な活用
- 多くの作業ではSystem 1思考で十分である(例: ブータンの首都が何かを、より長く考えても役には立たない)
- しかし、数学や生物学におけるブレークスルーのような、より複雑な問題では、速く本能的な反応だけでは不十分である
- こうした進歩には、深い思考、創造的な問題解決、そして何より時間が必要である
- AIも同様である。最も困難で意味のある問題を解決するには、学習データセット内の高速な応答を超え、人間の進歩を定義してきた思慮深い推論を導き出すために時間をかける必要がある
新しいスケーリング則: 推論競争の始まり
- OpenAIのo1論文における最も重要な洞察は、新しいスケーリング則が登場したという点である
- LLM事前学習のスケーリング則
- LLM事前学習は、よく理解されたスケーリング則に従う
- モデルの事前学習により多くのコンピューティングとデータを使うほど、性能は向上する
- 推論時コンピューティングの新たなスケーリング則
- o1論文は、コンピューティング拡張のための新たな次元を開いた
- モデルにより多くの推論時間(または「テスト時間」)コンピューティングを与えるほど、推論能力は向上する
- モデルが数時間、数日、数十年にわたって思考できるようになったらどうなるだろうか?
- リーマン予想を解けるだろうか?
- アシモフの『最後の質問』に答えられるだろうか?
- 大規模事前学習クラスタから推論クラウドへの移行
- この変化は、私たちを大規模事前学習クラスタの世界から推論クラウドへと移行させるだろう
- 推論クラウドとは、タスクの複雑さに応じてコンピューティングを動的に拡張できる環境である
1つのモデルがすべてを支配するようになるのか?
- OpenAI、Anthropic、Google、Meta などが推論レイヤーを拡張し、より強力な推論マシンを開発するにつれて、何が起きるのだろうか?
- 1つのモデルがすべてを支配するようになるのか?
- 1つの仮説は、単一モデル企業があまりに強力になり、他のすべてのアプリケーションを吸収するというものだった
- この予測は、これまでのところ2つの点で誤りであることが判明している
- 第一に、モデルレイヤーには、SOTA能力をめぐって絶えず競争する多くの競合がいる
- 誰かが広範なドメイン自己学習によって継続的な自己改善を実現し、離陸に成功する可能性はあるが、まだその証拠はない
- むしろモデルレイヤーは熾烈な競争の場であり、GPT-4のトークン単価は前回のDevDay以降98%下落した
- 第二に、モデルはアプリケーションレイヤーへの進出に苦戦している
- ChatGPTを除けば、モデルがアプリケーションレイヤーで画期的な製品として定着することには概して失敗している
- 現実世界は複雑だからだ
- 優れた研究者たちは、考え得るあらゆる業種のあらゆる機能について、詳細なエンドツーエンドのワークフローを理解したいとは思わない
- 研究者にとって、APIで立ち止まり、現実世界の複雑さを開発者エコシステムに任せることは、魅力的で経済的にも合理的だ
- これはアプリケーションレイヤーにとって良いニュースだ
複雑な現実世界:カスタム認知アーキテクチャの必要性
- 科学者として目標を達成するために行動を計画し実行する方法は、ソフトウェアエンジニアとして働く方法と大きく異なる
- また、異なる会社のソフトウェアエンジニアとして働く方法もそれぞれ異なる
- 研究所では水平的な汎用推論の限界をさらに押し広げているが、それでも有用なAIエージェントを提供するには、アプリケーションまたはドメイン特化の推論が必要だ
- 複雑な現実世界では、汎用モデルには効率的にエンコードできない相当量のドメイン別・アプリケーション別推論が必要になる
- 認知アーキテクチャの台頭
- 認知アーキテクチャとは、システムの思考様式、つまりユーザー入力を受け取り、行動を実行したり応答を生成したりするコードとモデルの相互作用の流れを意味する
- たとえばFactoryでは、「ドロイド」製品のそれぞれが、プルリクエストのレビューや、バックエンド間サービス更新のためのマイグレーション計画の作成・実行といった特定の作業を解決するために、人間の考え方を模倣したカスタム認知アーキテクチャを備えている
- Factoryドロイドは、すべての依存関係を分析し、関連するコード変更を提案し、単体テストを追加し、レビューのために人間を巻き込む
- その後、承認後に開発環境内のすべてのファイルに変更を適用し、すべてのテストを通過するとコードをマージする
- これは、一般化されたブラックボックスのような1つの回答ではなく、一連の個別作業から成る人間の思考様式に似ている
Appでは何が起きているのか?
- AI事業を始めるには、どのレイヤーを狙うべきだろうか?
- インフラレイヤーで競争するには、NVIDIAとハイパースケーラーに勝たなければならない
- モデルレイヤーで競争するには、OpenAIとMark Zuckerbergに勝たなければならない
- アプリケーションレイヤーで競争するには、企業ITとグローバルSI企業に勝たなければならない
- アプリケーションレイヤーでの競争が最も実現可能に見える
- アプリケーションレイヤーの機会
- 基盤モデルは魔法のようだが、同時に複雑でもある
- 主流企業は、ブラックボックス、ハルシネーション、不格好なワークフローを扱えない
- 消費者は空白のプロンプトを見ても、何を頼めばよいのかわからない
- これはアプリケーションレイヤーの機会だ
- 2年前、多くのアプリケーションレイヤー企業は「GPT-3の上に載ったただのラッパーにすぎない」と非難されていた
- 今日、そのラッパーは持続可能な価値を築く数少ない健全な方法の1つであることが判明している
- 「ラッパー」として始まったものが「認知アーキテクチャ」へと進化した
- アプリケーションレイヤーAI企業の特徴
- 単に基盤モデルの上にUIを載せるだけではない
- 通常、次を含む洗練された認知アーキテクチャを持っている:
- 上位に何らかのルーティング機構を備えた複数の基盤モデル
- RAGのためのベクトルおよび/またはグラフデータベース
- コンプライアンスを確保するためのガードレール
- ワークフローを通じて推論方法を模倣するアプリケーションロジック
Service-as-a-Software
- クラウド移行は「Software-as-a-Service」だった。ソフトウェア企業はクラウドサービスプロバイダーになり、これは3,500億ドル規模の機会だった
- エージェント推論のおかげで、AI移行は「Service-as-a-Software」である。ソフトウェア企業は労働力をソフトウェアへと転換している
- これは、ターゲット市場がソフトウェア市場ではなく、数兆ドル規模のサービス市場であることを意味する
- 仕事を売るということの意味
- Sierraという会社が良い例だ
- B2C企業は、顧客と会話するために自社WebサイトにSierraを配置する
- やるべき仕事(job-to-be-done)は、顧客の問題を解決することだ
- Sierraは解決件数ごとに課金する
- 「シート(seat)」のようなものはない。やるべき仕事があり、Sierraがそれを処理し、それに応じて課金される
- これが多くのAI企業にとって真の北極星だ
- Sierraの強みと他社の課題
- Sierraには、優雅な失敗モード(人間のオペレーターへのエスカレーション)という利点がある
- すべての会社がそれほど恵まれているわけではない
- 新しいパターンは、まず操縦士付き(human-in-the-loop)で導入し、その後その経験を活かして自動操縦(human-out-of-the-loop)での導入機会を得るというものだ
- GitHub Copilotはその良い例だ
新しいタイプのエージェントアプリケーションが登場し始めている
- Generative AIの新しい推論機能によって、新しい種類のエージェントアプリケーションが登場し始めている
- 興味深いことに、これらのアプリケーションレイヤー企業は以前のクラウド企業とは異なる姿をしている:
- クラウド企業はソフトウェア収益を狙っていたが、AI企業はサービス収益を狙っている
- クラウド企業はソフトウェア($/seat)を販売していたが、AI企業は作業($/result)を販売している
- クラウド企業は摩擦のない流通によるbottom-upアプローチを好んでいたが、AI企業はますますhigh-touch、high-trustな提供モデルによるtop-downアプローチを取っている
- 知識経済のあらゆる分野で登場しているエージェントアプリケーションの例
- Harvey: AI弁護士
- Glean: AI業務アシスタント
- Factory: AIソフトウェアエンジニア
- Abridge: AI医療記録作成者
- XBOW: AIペネトレーションテスター
- Sierra: AIカスタマーサポートエージェント
- これらのサービスを提供する限界コストを、推論コストの急落と同じ水準まで下げることで、エージェントアプリケーションは新しい市場を拡大し創出している
- XBOWは良い例だ:
- XBOWはAI「pentester」を構築している
- 「ペンテスト」またはペネトレーションテストは、企業が自社のセキュリティシステムを評価するために行う、コンピュータシステムに対する模擬サイバー攻撃である
- Generative AI以前は、人間によるペンテストは高価だったため(熟練人材が行う手作業)、企業は限られた状況(例: コンプライアンス上必要な場合)でのみペネトレーションテスターを雇っていた
- しかしXBOWは現在、最新の推論LLMに基づく自動化ペンテストを実演しており、これは最も熟練した人間のペネトレーションテスターの性能に匹敵する
- これはペンテスト市場を拡大し、あらゆる規模・形態の企業に継続的なペンテストの可能性を開いている
これがSaaS業界に与える影響は?
- 今年初めにLPたちと会った際、最も多く受けた質問は「AIへの移行が既存のクラウド企業を破壊するのか?」というものだった
- 私たちは「いいえ」という強い基本仮説から出発していた
- スタートアップと既存企業の古典的な戦いは、スタートアップが流通を構築し、既存企業が製品を構築するレースのようなものだ
- 顧客を握っている既存企業が優れた製品を出す前に、優れた製品を持つ若い企業が顧客に到達できるのか?
- AIの魔法の大半が基盤モデルから来ていることを踏まえると、私たちの基本仮説は「いいえ」だった
- 既存企業もスタートアップと同じように基盤モデルへアクセスでき、データと流通における既存の優位性もあるため、うまくやれるだろう
- スタートアップの主な機会は既存のソフトウェア企業を置き換えることではなく、自動化可能な作業プールを攻略することにある
- しかし、私たちはもはやそこまで確信していない
- 認知アーキテクチャについて上で述べた内容を参照してほしい
- モデルの生の能力を、説得力があり信頼できるエンドツーエンドのビジネスソリューションへ変えるには、膨大なエンジニアリングが必要だ
- 「AIネイティブ」が意味するものを、私たちは劇的に過小評価しているのではないか?
- 20年前、オンプレミスのソフトウェア企業はSaaSというアイデアをあざ笑っていた
- 「大したことじゃない。自分たちでもサーバーを運用して、これをインターネット経由で提供できる!」
- 概念的には単純だったが、その後に事業全体の再創造が起こった:
- EPDはウォーターフォールモデルとPRDから、アジャイル開発とABテストへ移行した
- GTMはトップダウンのエンタープライズ営業とステーキディナーから、ボトムアップのPLGとプロダクト分析へ移行した
- ビジネスモデルは高いASPと保守収益の流れから、高いNDRと従量課金へ移行した
- オンプレミス企業のうち、この転換に成功したところはほとんどなかった
- AIはSaaSと同様の転換点になり得るのだろうか? AIの機会は、仕事を売りながら同時にソフトウェアを代替することにあるのだろうか?
- Day.aiを通じて、私たちは未来を垣間見た
- DayはAIネイティブなCRMだ
- システムインテグレーターは、Salesforceを顧客の要件に合わせて構成することで数十億ドルを稼いでいる
- Dayはメールとカレンダーへのアクセス、そして1ページ分のアンケートへの回答だけで、顧客のビジネスに完全に合ったCRMを自動生成する
- まだすべての機能が揃っているわけではないが、人の介入なしで常に最新状態を保つ自動生成CRMの魔法は、すでに人々に乗り換えを決断させている
投資業界
- 投資家たちはどこに時間を割き、資金を投じているのだろうか?
- インフラ
- この領域はハイパースケーラーたちの領分だ
- 経済分析というより、ゲーム理論的な行動によって動いている
- ベンチャー投資家には向いていない領域だ
- モデル
- ハイパースケーラーと財務投資家(FI)が活動する領域だ
- ハイパースケーラーは資産バランスシートを活用して利益を得て、それがクラウド事業の計算コストとして戻ってくる形で投資する
- 財務投資家は「科学に感嘆する」バイアスの影響を受けている
- これらのモデルは非常に興味深く、チームも優秀だが、経済合理性は無視されている
- 開発者ツールおよびインフラソフトウェア
- 戦略投資家にとってはそれほど興味深くないが、ベンチャー投資家にとってはより魅力的だ
- クラウド移行の時期には、このレイヤーから年間売上10億ドル以上の企業が約15社生まれた
- AI移行でも同様の現象が起こると予想される
- アプリケーション
- ベンチャー投資家にとって最も興味深いレイヤーだ
- クラウド移行の間に、年間売上10億ドル以上のアプリケーションレイヤー企業が約20社生まれた
- モバイル移行でも同程度の企業が登場しており、今回のAI移行でも同様の傾向が予想される
締めくくりの考え
- 生成AIの次の段階では、推論R&D の影響がアプリケーションレイヤーに速く、深く広がると予想される
- 従来の認知アーキテクチャは主に「制約解除(unhobbling)」技術を含んでいたが、今ではこうした能力がモデル自体に内在化されつつあり、エージェントベースのアプリケーションはさらに洗練され、堅牢になると見られる
- 研究所ではReasoningとInference-Timeの計算が引き続き重要なテーマであり、新たなスケーリング則が登場した今、次の競争が始まる
- しかし特定のドメインでは、依然として実世界データを収集し、ドメインおよびアプリケーション特化の認知アーキテクチャをエンコードすることが難しい
- こうした問題を解決するうえでは、ラストマイルのアプリ提供事業者が有利かもしれない
- 今後、FactoryのDroidのようなマルチエージェントシステムが登場し、推論および社会的学習プロセスをモデリングする形で広がっていく可能性がある
- マルチエージェントシステムは、複数の作業を同時に処理できるチームを構成することで、より多くの仕事を達成できると予想される
- 多くの人が期待している瞬間は、生成AIの「Move 37」 であり、これはAlphaGoがイ・セドルとの対局で見せたように、汎用AIシステムが予想外の超人的な振る舞いを示す瞬間を意味する
- この瞬間が来たからといってAIが「意識を持つ」わけではないが、AIは知覚・推論・行動の過程をシミュレートし、独創的で有用な形で探索できる能力を持ち得る
- これは AGI(人工知能の完全な自律性) である可能性があり、それは単一の出来事ではなく、技術の次の段階へとつながっていくだろう
4件のコメント
さらに賢くなる人工知能で、どのような問題を解決できるのか期待されます。
モデルが長時間考えてリーマン予想を解けるなら、その波及力は計り知れないですね。
Metaではなくザッカーバーグに言及しているのが、なんだか笑えますね(笑)
要約文には明示的に出ていないので、念のため書いておくと、システム1とシステム2は『ファスト&スロー(Thinking, Fast and Slow)』という本に出てくる概念です。
システム1: 深く考えずに無意識的または直感的に行動する速い思考 例) 運転、歩行
システム2: 論理的にじっくり考えなければならない遅い思考 例) 暗算