最新のAIスタック：エンタープライズAIアーキテクチャの未来に向けた設計原則

xguru · 2024-01-29T11:05:01+09:00

最新のAIスタックの定義レイヤー1：コンピュートおよび基盤モデル - 基盤モデルそのものと、モデルを訓練、微調整、最適化、デプロイするためのインフラを含むレイヤー2：データ - LLMを企業データシステム内の適切なコンテキストに接続するためのインフラを含み、データ前処理、ETLおよびデータパイプライン、ベクターデータベース、メタデータストア、コンテキストキャッシュなどの主要コンポーネントを含むレイヤー3：デプロイ - 開発者がAIアプリケーションを管理・調整するのに役立つツールを含む。エージェントフレームワーク、プロンプト管理、モデルルーティングおよびオーケストレーションレイヤー4：オブザーバビリティ - LLMの実行時の挙動を監視し、脅威から保護するソリューションを含む新しいAI成熟度曲線現代のAIスタックを定義する市場構造と技術は急速に進化しており、主要コンポーネントとリーダー企業はすでに現れている LLM以前はML開発が線形で「モデル中心」だったが、LLMはそれを「製品中心」へと転換し、MLの専門知識がないチームでもAIを製品に統合できるようにした AIスタックが成熟するにつれ、開発チームは企業固有または顧客固有のデータを通じてAI体験をカスタマイズしようとしている AI成熟度曲線 1段階：Closed-source models only クローズドソースモデルのみ 2023年初頭には、コストとエンジニアリングの努力は主に基盤モデルそのものに集中し、その上にはシンプルなカスタマイズ（プロンプトエンジニアリング / few-shot learningなど）しかなかった OpenAIやAnthropicのような主要なクローズドソースモデル提供企業はこの段階で初期の牽引力を獲得し、現代のAIスタックにおける最初の勝者として確固たる地位を築いた 2段階：Retrieval-augmented generation 検索拡張生成 AIアプリケーション開発の中心として、モデル層ではなくデータ層に重点が移った特にRAGの普及には、ベクターデータベースのPineconeやデータ前処理エンジンのUnstructuredのような、より強力なデータ層インフラが必要となるほとんどの企業とスタートアップは現在この段階にある 3段階：Hybrid model deployment ハイブリッドモデルデプロイ TypefaceやDescriptのような先行企業は、大規模なドメイン特化タスクのために、クローズドソースモデルの利用をオープンソースで補完し始めている Modal、Baseten、Fireworksのようなモデルデプロイ事業者が大きな牽引力を得始めている 4段階以上：Custom models カスタムモデルまだ自社モデルを構築するほど高度化している、あるいはその必要がある企業はほとんどないが、今後はスタックをより深く活用したい大企業のユースケースが増えるだろうメモリ効率の高い微調整（4ビット量子化、QLoRA、メモリページング/オフロードを含む）のためのツールを提供するPredibaseやLaminiのような企業がこれを支えることになる新しいAIインフラスタックのための4つの主要な設計原則 AI革命は新しいインフラスタックへの需要を引き起こすだけでなく、企業がアプリケーション開発、R&D支出、チーム構成に取り組む方法そのものを再構成している主な設計原則： 1. 支出の大半は推論とトレーニングに使われる LLM革命の初期には、あらゆる企業がいずれ独自の大規模言語モデルを訓練できるようになると見られていた 2023年3月に発表されたBloombergGPT（金融データ向けに特別に訓練された50b LLM）のようなモデルは、今後企業別・ドメイン別LLMがあふれる前兆のように見えたしかし、そのような大洪水は起きなかった Menlo Venturesの最近のエンタープライズAI調査によれば、AI支出全体のほぼ95%がランタイムと事前学習に使われていることが示されたこの比率が逆転しているのはAnthropicのような大規模基盤モデル提供企業だけである。アプリケーションレイヤーでは、Writerのような高度なAIビルダーでさえ、計算資源の80%以上をトレーニングではなく推論に使っている 2. 私たちはマルチモデル世界に生きている単一モデルが「すべてのモデルを支配する」ことはできない企業の60%が複数のモデルを使い、最も性能の高いモデルへプロンプトをルーティングしているマルチモデルアプローチは単一モデルへの依存をなくし、より高い制御性を提供し、コストを削減する 3. RAGが支配的なアーキテクチャアプローチである LLMは優れた推論エンジンだが、ドメイン知識や企業固有の知識には限界がある有用なAI体験を作るために、チームは検索拡張生成（RAG）から着手し、知識拡張技術を迅速に導入している RAGはPineconeのようなベクターデータベースを通じて、基盤モデルに企業固有の「メモリ」を与えるこの技術は現在本番投入されている他のカスタマイズ技術、たとえばファインチューニング、LoRA、アダプターなどを大きく先行しており、主にモデル層ではなくデータ層で機能する今後もこの傾向は続き、データ前処理エンジン（例：Cleanlab）やETLパイプ（例：Unstructured）を含むデータプレーンの新しい要素がランタイムアーキテクチャに統合されると見込まれる 4. すべての開発者が今やAI開発者である世界全体で開発者は3,000万人いる一方、MLエンジニアは30万人、ML研究者は3万人にすぎない MLの最前線でイノベーションを起こしている人々の中でも、GPT-4やClaude 2級のシステムを構築する方法を知る研究者は世界に50人しかいないと推定されているこうした現実を踏まえると、朗報は、かつては何年もの基礎研究と高度なML専門知識を必要とした作業を、いまや強力な事前学習済みLLMを基盤にデータシステムを設計する主流の開発者が、数日から数週間で完了できるようになったことだ SalesforceのEinstein GPT（Sales向けAI CoPilot）やIntuit Assist（生成AIベースの金融アシスタント）のような製品は、主にAIエンジニアから成るリーンなチーム（現代のAIスタックのデータプレーンで作業する従来型フルスタックエンジニア）によって構築されている次のステップ現代のAIスタックは急速に進化しており、今年も継続すると見られるいくつかの進展がある次世代AIアプリケーションは、より高度なRAGを試験運用している RAGは現在の王者だが、このアプローチに問題がないわけではない多くの実装では、依然としてトークン数ベースの文書チャンク、非効率なインデキシングやランキングアルゴリズムを含む、素朴な埋め込み・検索技術が使われているコンテキストの断片化、ハルシネーション、エンティティの希少性、非効率な検索といった問題を抱えているこうした問題を解決するため、次世代アーキテクチャではより高度なRAGをテストしている：Chain-Of-Thought推論、Tree-Of-Thought推論、Reflexion、ルールベース検索など小型モデルが現代のAIスタックでより大きな比重を占める AIアプリケーションビルダーが現代のAIスタックにより深く注力するにつれ、より細分化されたタスク特化型モデルの増加が予想されるより大きなクローズドソースモデルでは扱いにくい、あるいはコストが高い特定領域向けに、微調整されたタスク別モデルが広がるだろう MLパイプライン構築および微調整のためのインフラは、企業が自社のタスク特化型モデルを作成するにつれて、この段階で非常に重要になる Ollamaやggmlが提供する量子化技術は、チームが小型モデルの最大の速度向上を享受できるよう支援するオブザーバビリティ（Observability）とモデル評価（Model Evaluation）のための新しいツールが登場している 2023年の大半の期間において、ロギングと評価はまったく行われていないか、手作業で行われているか、あるいは多くのエンタープライズアプリケーションの出発点となる学術ベンチマークを通じて行われていた Criteoの調査によれば、AIを導入した企業の約70%が主要な評価手法として人手による成果物レビューを行っている。理由はリスクが高いためだ顧客は高品質な成果物を期待しており、それに値する。そして企業は、ハルシネーションによって顧客の信頼を失う可能性を十分認識しているしたがって、オブザーバビリティと評価は新しいツールにとって重要な機会を提供するすでにBraintrust、Patronus、Log10、AgentOpsのような有望な新しいアプローチが登場しているアーキテクチャはサーバーレスの方向へ進むだろう他のエンタープライズデータシステムと同様に、現代のAIスタックも時間とともにサーバーレスへ移行しているここでは「一時的マシン」型のサーバーレス（例：ラムダ関数）と、真のscale-to-zeroサーバーレス（例：Postgres向けNeonアーキテクチャ）を区別している scale-to-zeroサーバーレスでは、インフラを抽象化することで、開発者はアプリケーション実行の運用上の複雑さを減らし、より高速な反復が可能になり、企業はコンピュートではなく可用性に対してのみ料金を支払うことで大きなリソース最適化の恩恵を受けられるサーバーレスというパラダイムは現代のAIスタックのあらゆる部分に適用されるだろう Pineconeはベクターコンピューティング向けの最新アーキテクチャとしてこのアプローチを採用している NeonはPostgres、MomentoはCaching、BasetenとModalは推論のために同様のことを行っている

(menlovc.com)

28 ポイント投稿者 xguru 2024-01-29 | 6件のコメント | WhatsAppで共有

新しいAI成熟度曲線

現代のAIスタックを定義する市場構造と技術は急速に進化しており、主要コンポーネントとリーダー企業はすでに現れている
LLM以前はML開発が線形で「モデル中心」だったが、LLMはそれを「製品中心」へと転換し、MLの専門知識がないチームでもAIを製品に統合できるようにした
AIスタックが成熟するにつれ、開発チームは企業固有または顧客固有のデータを通じてAI体験をカスタマイズしようとしている
AI成熟度曲線
- 1段階：Closed-source models only クローズドソースモデルのみ
  - 2023年初頭には、コストとエンジニアリングの努力は主に基盤モデルそのものに集中し、その上にはシンプルなカスタマイズ（プロンプトエンジニアリング / few-shot learningなど）しかなかった
  - OpenAIやAnthropicのような主要なクローズドソースモデル提供企業はこの段階で初期の牽引力を獲得し、現代のAIスタックにおける最初の勝者として確固たる地位を築いた
- 2段階：Retrieval-augmented generation 検索拡張生成
  - AIアプリケーション開発の中心として、モデル層ではなくデータ層に重点が移った
  - 特にRAGの普及には、ベクターデータベースのPineconeやデータ前処理エンジンのUnstructuredのような、より強力なデータ層インフラが必要となる
  - ほとんどの企業とスタートアップは現在この段階にある
- 3段階：Hybrid model deployment ハイブリッドモデルデプロイ
  - TypefaceやDescriptのような先行企業は、大規模なドメイン特化タスクのために、クローズドソースモデルの利用をオープンソースで補完し始めている
  - Modal、Baseten、Fireworksのようなモデルデプロイ事業者が大きな牽引力を得始めている
- 4段階以上：Custom models カスタムモデル
  - まだ自社モデルを構築するほど高度化している、あるいはその必要がある企業はほとんどないが、今後はスタックをより深く活用したい大企業のユースケースが増えるだろう
  - メモリ効率の高い微調整（4ビット量子化、QLoRA、メモリページング/オフロードを含む）のためのツールを提供するPredibaseやLaminiのような企業がこれを支えることになる

新しいAIインフラスタックのための4つの主要な設計原則

AI革命は新しいインフラスタックへの需要を引き起こすだけでなく、企業がアプリケーション開発、R&D支出、チーム構成に取り組む方法そのものを再構成している
主な設計原則：
- 1. 支出の大半は推論とトレーニングに使われる
  - LLM革命の初期には、あらゆる企業がいずれ独自の大規模言語モデルを訓練できるようになると見られていた
  - 2023年3月に発表されたBloombergGPT（金融データ向けに特別に訓練された50b LLM）のようなモデルは、今後企業別・ドメイン別LLMがあふれる前兆のように見えた
  - しかし、そのような大洪水は起きなかった
  - Menlo Venturesの最近のエンタープライズAI調査によれば、AI支出全体のほぼ95%がランタイムと事前学習に使われていることが示された
  - この比率が逆転しているのはAnthropicのような大規模基盤モデル提供企業だけである。アプリケーションレイヤーでは、Writerのような高度なAIビルダーでさえ、計算資源の80%以上をトレーニングではなく推論に使っている
- 2. 私たちはマルチモデル世界に生きている
  - 単一モデルが「すべてのモデルを支配する」ことはできない
  - 企業の60%が複数のモデルを使い、最も性能の高いモデルへプロンプトをルーティングしている
  - マルチモデルアプローチは単一モデルへの依存をなくし、より高い制御性を提供し、コストを削減する
- 3. RAGが支配的なアーキテクチャアプローチである
  - LLMは優れた推論エンジンだが、ドメイン知識や企業固有の知識には限界がある
  - 有用なAI体験を作るために、チームは検索拡張生成（RAG）から着手し、知識拡張技術を迅速に導入している
  - RAGはPineconeのようなベクターデータベースを通じて、基盤モデルに企業固有の「メモリ」を与える
  - この技術は現在本番投入されている他のカスタマイズ技術、たとえばファインチューニング、LoRA、アダプターなどを大きく先行しており、主にモデル層ではなくデータ層で機能する
  - 今後もこの傾向は続き、データ前処理エンジン（例：Cleanlab）やETLパイプ（例：Unstructured）を含むデータプレーンの新しい要素がランタイムアーキテクチャに統合されると見込まれる
- 4. すべての開発者が今やAI開発者である
  - 世界全体で開発者は3,000万人いる一方、MLエンジニアは30万人、ML研究者は3万人にすぎない
  - MLの最前線でイノベーションを起こしている人々の中でも、GPT-4やClaude 2級のシステムを構築する方法を知る研究者は世界に50人しかいないと推定されている
  - こうした現実を踏まえると、朗報は、かつては何年もの基礎研究と高度なML専門知識を必要とした作業を、いまや強力な事前学習済みLLMを基盤にデータシステムを設計する主流の開発者が、数日から数週間で完了できるようになったことだ
  - SalesforceのEinstein GPT（Sales向けAI CoPilot）やIntuit Assist（生成AIベースの金融アシスタント）のような製品は、主にAIエンジニアから成るリーンなチーム（現代のAIスタックのデータプレーンで作業する従来型フルスタックエンジニア）によって構築されている

次のステップ

現代のAIスタックは急速に進化しており、今年も継続すると見られるいくつかの進展がある
次世代AIアプリケーションは、より高度なRAGを試験運用している
- RAGは現在の王者だが、このアプローチに問題がないわけではない
- 多くの実装では、依然としてトークン数ベースの文書チャンク、非効率なインデキシングやランキングアルゴリズムを含む、素朴な埋め込み・検索技術が使われている
- コンテキストの断片化、ハルシネーション、エンティティの希少性、非効率な検索といった問題を抱えている
- こうした問題を解決するため、次世代アーキテクチャではより高度なRAGをテストしている：Chain-Of-Thought推論、Tree-Of-Thought推論、Reflexion、ルールベース検索など
小型モデルが現代のAIスタックでより大きな比重を占める
- AIアプリケーションビルダーが現代のAIスタックにより深く注力するにつれ、より細分化されたタスク特化型モデルの増加が予想される
- より大きなクローズドソースモデルでは扱いにくい、あるいはコストが高い特定領域向けに、微調整されたタスク別モデルが広がるだろう
- MLパイプライン構築および微調整のためのインフラは、企業が自社のタスク特化型モデルを作成するにつれて、この段階で非常に重要になる
- Ollamaやggmlが提供する量子化技術は、チームが小型モデルの最大の速度向上を享受できるよう支援する
オブザーバビリティ（Observability）とモデル評価（Model Evaluation）のための新しいツールが登場している
- 2023年の大半の期間において、ロギングと評価はまったく行われていないか、手作業で行われているか、あるいは多くのエンタープライズアプリケーションの出発点となる学術ベンチマークを通じて行われていた
- Criteoの調査によれば、AIを導入した企業の約70%が主要な評価手法として人手による成果物レビューを行っている。理由はリスクが高いためだ
- 顧客は高品質な成果物を期待しており、それに値する。そして企業は、ハルシネーションによって顧客の信頼を失う可能性を十分認識している
- したがって、オブザーバビリティと評価は新しいツールにとって重要な機会を提供する
- すでにBraintrust、Patronus、Log10、AgentOpsのような有望な新しいアプローチが登場している
アーキテクチャはサーバーレスの方向へ進むだろう
- 他のエンタープライズデータシステムと同様に、現代のAIスタックも時間とともにサーバーレスへ移行している
- ここでは「一時的マシン」型のサーバーレス（例：ラムダ関数）と、真のscale-to-zeroサーバーレス（例：Postgres向けNeonアーキテクチャ）を区別している
- scale-to-zeroサーバーレスでは、インフラを抽象化することで、開発者はアプリケーション実行の運用上の複雑さを減らし、より高速な反復が可能になり、企業はコンピュートではなく可用性に対してのみ料金を支払うことで大きなリソース最適化の恩恵を受けられる
- サーバーレスというパラダイムは現代のAIスタックのあらゆる部分に適用されるだろう
- Pineconeはベクターコンピューティング向けの最新アーキテクチャとしてこのアプローチを採用している
- NeonはPostgres、MomentoはCaching、BasetenとModalは推論のために同様のことを行っている

6件のコメント

hyeonseokoh94 2024-01-31

良くて面白い記事。

galadbran 2024-01-30

https://ja.news.hada.io/topic?id=6658 Neon - サーバーレス Postgres オープンソース

kaistj 2024-01-30

変化する環境の中で、新しい機会がたくさん生まれるといいですね〜
良い方向へ

dlehals2 2024-01-29

世界中に開発者は3,000万人しかいないのでしょうか？？

xguru 2024-01-29

よく引用される Evans Data Corporation のレポートによると、2022年時点で約2,630万人とのことです。
https://www.evansdata.com/press/viewRelease.php?pressID=339

GitHub を利用する開発者は1億人を超えていますが、全員を開発者とみなすのは難しい気がします。
https://github.blog/2023-01-25-100-million-developers-and-counting/