a16zが整理したAI音声エージェントのすべて
(a16z.com)- 生成AIのおかげで、今後人間は電話をかける必要がなくなっていく
- 人間は、電話に価値がある場合にのみ時間を割くようになる
企業にもたらすメリット
- 人間の発信者にかかる時間と人件費の削減
- 収益拡大のためのリソース再配置の可能性
- より標準化され一貫した顧客体験によるリスク低減
消費者にもたらすメリット
- 音声エージェントは、実在の人に支払ったり「マッチング」したりする必要なく、人間レベルのサービスを提供できる
- 現在はセラピスト、コーチ、コンパニオンなどが含まれる
- 将来的には、音声を中心に構築されたはるかに幅広い体験を含む可能性が高い
- 他の多くの消費者向けソフトウェアと同様に、「勝者」は予測できないだろう
電話は世界とやり取りするためのAPIであり、AIはそれをさらに一段引き上げる
機会があると見られる領域
- インフラプレイヤー、消費者向けインターフェース、企業向けエージェントなど、各レイヤーに大きな機会がある
- B2CおよびB2B音声エージェントについて、最も興味深い新興プロダクトに関するいくつかの仮説がある:
B2BおよびB2C音声エージェントの主な特徴
- Built to scale(スケール可能に構築されている)
- レイテンシーと会話体験はまだ解決されていない
- エージェント構築について明確な考えを持つ創業者を探している
- エージェントにとって最も重要な要素(速度、正確性、トーン/感情など)を最大化しようとしている
- Vertically focused(垂直特化)
- これは、特定のユースケース向けに独自に調整されたモデルと緊密な統合に依存する実行型エージェントかもしれない
- これは構築しやすく、市場投入しやすく、成功裏に成長させやすい
- Realistic in scope(スコープが現実的)
- 重要な通話を完全にAIへ委任するのは大きな課題だ
- 私たちは、音声エージェント企業が短期的には「スケール」できない仕事を担うことを期待している
- これには顧客ごとのチューニングや、最終段階で人間のエージェントへ通話を引き継ぐことが含まれる場合がある
音声エージェント構築のためのスタック
- 音声エージェントが動作するには、次が必要:
- 人間の音声を収集する(ASR)
- LLMを使ってこの入力を処理し、出力を返す
- 人間に再び話しかける(TTS)
- GPT-4oのような新しいマルチモーダルモデルは、1つのモデルでこれら複数のレイヤーを同時に「実行」することで、スタックの構造を変える可能性がある
- これにより、レイテンシーとコストを下げ、より自然な会話型インターフェースを提供できる可能性がある
- 多くのエージェントは、以下の合成スタックでは真に人間らしい品質に達していない
- 一部の企業/アプローチでは、LLMまたは一連のLLMが会話フローと感情を処理する。別のケースでは、感情を加えたり割り込みを管理したりする独自エンジンがある
- 「フルスタック」音声プロバイダーは、これらすべてを一か所で提供する。
- 消費者向け(B2C)および企業向け(B2B)アプリは、このスタックの上に載っている。
- サードパーティプロバイダーを利用する場合でも、アプリは通常カスタムLLMをプラグインし、これはしばしば会話エンジンの役割も果たす。
フルスタック vs. 自前構築: 主な要素の比較
- 音声エージェントの創業者は、フルスタックプラットフォーム(例: Retell, Vapi, Bland)上でエージェントを動かすか、スタックを自分で組み立てるかを選べる。
- この意思決定にはいくつかの主要要素がある:
- Complexity(複雑性)
- フルスタックプレイヤーは、インフラ面の複雑さを抽象化しつつ、音声エージェントをより簡単に構築できる方法を提供する
- それでも、プロンプトや知識文書(RAG)をLLMにプラグインするようなカスタマイズやチューニングの余地は残る
- Flexibility(柔軟性)
- 特定の垂直市場やユースケースを構築する創業者は、スタック各レイヤーがどのように動作/実行されるかについて最大限の柔軟性を望む可能性が高い
- これは可能な限りレイテンシーを下げることにもつながる
- Cost(コスト)
- フルスタックプロバイダーは通話ごとの追加コストを導入する可能性があり、ボリュームによってより良い価格を交渉できる場合もある
- 大規模な音声エージェントでは、通話ごとの差が数セントでも重要になりうる
- Control(コントロール)
- 問題が起きたとき、音声エージェントの創業者は即座に原因を追跡し解決できなければならない。特にセンシティブなユースケースではなおさらだ
- また、各レイヤーがどう機能しているかについて最大限の可視性が必要な場合もある
- これは自前構築スタックのほうが容易に実現できる
- Complexity(複雑性)
- スタックの主要プレイヤー
- Full Stack(フルスタック): hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion(感情): hume
- Text to Speech(音声合成): ElevenLabs, Azure
- Speech to Text(音声認識): Deepgram, Whisper, AssemblyAI, Azure
- Streaming(ストリーミング): LiveKit, daily
B2Bエージェントに関する私たちの見解
AI音声の進化
- 私たちは、1.0のAI音声(電話ツリー)から2.0のAI音声(LLMベース)の時代へ移行している
- 2.0企業はここ6か月ほどで登場し始めた
- 現時点では1.0企業のほうがより正確かもしれないが、長期的には2.0アプローチのほうがはるかにスケーラブルで高精度になるだろう
垂直市場に特化したモデルの必要性
- あらゆる種類の企業向け音声エージェントに適用できる、単一の水平型モデルやプラットフォームは存在しないだろう
- 垂直市場ごとにいくつかの主要な違いがある:
- 通話の種類、トーン、構造
- 統合とプロセス
- GTMと「キラー機能」
- これは、UIにおいて強い思想を持った垂直特化エージェントが爆発的に増えることを意味するかもしれない
- そのためには、その分野に関する専門知識や関心を持つ創業チームが必要だ
最も近い機会
- 労働集約的な企業にとって、TAMは大きい
- 最も短期的な機会は、次のような業界にある可能性がある:
- 電話予約が生命線になっている場所
- 深刻な人手不足に直面している場所
- 通話の複雑性が低い場所
- エージェントがより高度になるにつれ、より複雑な通話も処理できるようになるだろう
B2Bエージェントの進化
- 進化の過程
- IVR(Interactive Voice Response): 従来のタッチトーンモデルで、エージェントが消費者に一連の選択肢(1番は販売、2番はカスタマーサポートなど)を提示し、それに応じて案内する
- AI 1.0(Phone Trees): IVRをより柔軟で直感的にしたバージョンで、消費者は自然言語で話し、エージェントは一連の会話フローを通じて案内しようとする
- AI 2.0(LLMs): 自由形式の会話で、AIは人間の発話を特定の事前定義オプションに一致させようとはしない
- 多くの音声エージェント企業は、特定業界(例: 自動車サービス)や特定の業務タイプ(例: 予約設定)に対して、垂直市場別のアプローチを取っている。これにはいくつか理由がある:
- 実行の難しさ
- AIに電話を任せるための品質基準は高く、会話フロー(および顧客側のバックエンドワークフロー)はすぐに複雑化・具体化しうる
- こうした垂直市場の「例外ケース」を構築する企業のほうが成功可能性は高い(例: 汎用モデルが誤解しうる固有語彙)
- 規制とライセンス
- 一部の音声エージェント企業は、特別な制限や必要な認証などに直面する
- 代表例は医療分野(例: HIPAA準拠)だが、国レベルでAIコールドコール規制がある営業のようなカテゴリーでも見られる
- 統合
- 一部カテゴリーでは、ユーザー体験(企業側・消費者側の双方)を適切に実現するために、ロングテールな統合や特殊な統合が必要になる場合がある。これは特定ユースケースを扱うのでなければ構築する価値がない
- 他ソフトウェアへの進出
- 音声は、予約、更新、見積もりなどの中核的な顧客行動に自然に入り込める
- 場合によっては、これがこうした企業向けのより広範な垂直型SaaSプラットフォームへ進出するきっかけになる。特に顧客基盤が依然としてオフライン中心で運営されている場合はなおさらだ
- 実行の難しさ
B2Bエージェント: 機会が見える領域
LLMベース。ただし初日から100%自動化である必要はない
- AI音声エージェントの「強い形」は、IVRや電話ツリーではなく、完全にLLM主導の会話になるだろう
- ただしLLMは全工程で100%信頼できるわけではないため、よりセンシティブな案件や大きな取引では(一時的に)「人間の介入」が入る可能性がある
- これはまた、垂直市場別ワークフローの重要性を高める。これにより、エッジケースを最小化しつつ成功確率を最大化し、人間の介入を最小限にできる
カスタムモデルチューニング vs. LLMアプローチのプロンプト
- B2B音声エージェントは、汎用LLMでは不十分である可能性が高い、専門化された(または垂直市場特化の)会話を扱う必要がある
- 多くの企業が顧客ごとにモデルをチューニングしており(数百〜数千件程度のデータポイントを使用)、それを会社全体の基本モデルへ一般化できる可能性がある
- エンタープライズ顧客向けのカスタムチューニングは今後も続くかもしれない
- 参考: 一部企業は、特定ユースケース向けに「汎用」モデル(顧客全体で使われるもの)をチューニングし、その後顧客ごとにプロンプトで調整している
ドメイン専門知識を持つ技術チーム
- 複雑性を考えると、高品質なB2B音声エージェントを構築・拡張するには、事前のAIバックグラウンドが役立つだろう
- しかし、プロダクトをどうパッケージ化し、どう垂直市場にくさびを打ち込むかを理解することも、ドメイン専門知識や強い関心を要するため、同じくらい重要である可能性が高い
- 企業向け音声エージェントを構築してローンチするのに、AIの博士号は必要ない!
統合 + エコシステムに対する鋭い視点
- 前述の内容と同様に、各垂直市場の買い手には、購入前に通常見たいと考える特定の機能や統合がある
- 実際、これこそがプロダクトの評価を「便利」から「魔法のよう」と引き上げる証拠になるかもしれない
- これが、かなり垂直特化した状態で始めるのが理にかなっているもう一つの理由だ
「エンタープライズ級」または強力なプロダクト主導成長(PLG)モーション
- 上位企業/プロバイダーに売上が大きく集中している垂直市場では、音声エージェント企業は大企業から始め、最終的にはセルフサービス製品として中小企業へ「下方展開」できる可能性がある
- 中小企業の顧客はこのソリューションを切実に求めており、さまざまな選択肢を試す意欲もあるが、スタートアップがモデルを企業水準に調整するために必要な規模/品質のデータを提供できない可能性がある
B2Cエージェントに関する私たちの見解
B2Bとの違い
- B2Bでは、音声エージェントは主に既存の電話業務を置き換えて特定タスクを完了する
- 消費者向けエージェントの場合、ユーザーが継続的に関与することを選ばなければならないが、音声でやり取りすることは常に便利とは限らないため、これは難しい
- これは、プロダクトの基準が「より高い」ことを意味する
最初の適用領域
- 消費者向け音声エージェントの最初かつ最も明白な適用領域は、高価またはアクセスしにくい人間サービスをAIで置き換えることだ
- これには、セラピー、コーチング、個別指導など、オンラインで完結可能な会話ベースのあらゆるものが含まれる
今後の可能性
- しかし私たちは、B2C音声エージェントの真の魔法はまだ到来していないと考えている!
- 私たちは、音声の力を使って、これまで存在しなかった新しい種類の「会話」を可能にするプロダクトを探している
- それは既存サービスの形を再発明することも、まったく新しいサービスを生み出すこともありうる
人間的なつながりの模倣
- UXを適切に実装したプロダクトでは、音声エージェントは、これまでソフトウェアでは見られなかったレベルで消費者を引き込む機会を提供する
- それは、真に人間的なつながりを模倣することだ
- これは、エージェント単体のプロダクトとして、あるいはより広範なプロダクトの音声モードとして現れる可能性がある
B2Cエージェントの進化
- これまで支配的だった消費者向けAI音声エージェントは、ChatGPT VoiceやInflectionのPiアプリのように大企業から出てきた。
- 消費者向け音声の立ち上がりが遅かった理由はいくつかある:
大企業の優位
- 大企業はすでに消費者向け流通網と、正確性やレイテンシーなどの面で最高水準のモデルを持っている
- 音声を大規模に提供するのは容易ではない。特に最近GPT-4oがリリースされたことを考えると、なおさらだ
新しい行動採用の難しさ
- B2B音声エージェントは既存プロセスにAIを「プラグイン」するのに対し、B2C音声エージェントはユーザーが新しい行動を採用しなければならない
- これは、より時間がかかるか、より魔法のようなプロダクトを必要とする可能性がある
既存の音声AIに対するネガティブな認識
- 消費者はSiriのような製品体験によって音声AIにネガティブな印象を持っているため、新しいアプリを試そうという動機を持ちにくいかもしれない
広範囲型プロダクトが基本ユースケースを満たしている
- 広範囲型プロダクトは通常、音声AIの基本ユースケース(個別指導、コンパニオンなど)を提供できる
- B2C音声スタートアップは、ChatGPT、Piなどが扱わないユースケースや体験を作り始める段階にある
B2Cエージェント: 機会が見える領域
なぜ音声が必要なのかについての強い視点
- 私たちは、音声がプロダクトにどのように独自の価値をもたらすのかについて明確な考えを持つプロダクトと創業者に期待している
- 単なる「音声のための音声」ではない
- 多くの場合、音声インターフェースは情報を消費し抽出するにはテキストインターフェースより不便であり、むしろマイナスになりうる
なぜリアルタイム音声が必要なのかについての強い視点
- 音声は消費しづらいが、リアルタイム音声はさらに難しい(非同期の音声メッセージと比べて)
- 私たちは、なぜ自分たちのプロダクトがリアルタイム会話を中心に構築されるべきなのかについての見解を持つ創業者に期待している
- おそらく、人間らしいコンパニオン関係や練習環境などのためだろう
AI以前の「プロダクト」との非類似性
- 私たちは、強い形のプロダクトは、AI音声エージェントが単に人間同士の従来の会話を人間提供者の代わりに移植したものにはならないだろうと考えている
- 第一に、その基準を満たすのは難しい
- さらに重要なのは、AIを使って同じ価値をより良く(より効率的に、より楽しく)届ける機会があるということだ
モデル品質が勝者を決めない垂直特化
- 主要な汎用消費者AIプロダクト(ChatGPT、Pi、Claude)は高品質な音声モードを持っている
- それらは多くの種類の会話やインタラクションに意味のある形で参加できる
- 自前のモデルとスタックをホスティングしているため、短期的にはレイテンシーと会話フローで勝つ可能性が高い
私たちは、スタートアップが次のような方法で成功すると期待している:
- 特定の種類の会話に合わせて調整またはチューニングする、
- 音声エージェント体験に、より多くのコンテキストと価値を与えるUIを構築する
- (例: 時間経過に伴う進捗追跡、会話/体験を明確な意図を持って導く)
1件のコメント
あるエンタープライズ企業のintegrationチームを間近で見る機会があったのですが、本文の内容と似たようなプロジェクトが進む様子をリアルタイムで見ることができましたね。
当初の目標はAWS connectを通じてCSを自動化することだったのですが、トラフィックの分散処理も行い、VVIP向け特別サービスの企画にも参加して……だんだんと規模が大きくなっていくのを見るのも興味深いことです。
こうなってくると、正直なところ利益にならない顧客は自動応答ボットができるだけ対応し、預かり金の多い顧客にはできるだけ早く人間のエージェントが直接連絡する、というのがサービス方針でしたね。仕方のない部分ではあるでしょう(笑)