15 ポイント 投稿者 xguru 2025-02-06 | 1件のコメント | WhatsAppで共有

私たちのThesis - "なぜ音声なのか?"

  • 音声は、AI活用の観点で強力なブレークスルーとして機能する
  • 企業にとっては、AIによって人員を代替し、24時間の顧客対応が可能になる
  • 消費者にとっても、音声が主要なAIインターフェースになるという見通しがある
  • 現在はAI音声インフラがある程度定着し、多様なアプリケーションで音声の本格活用が始まった段階である
  • モデル性能の改善に伴い、音声そのものが製品なのではなく、市場参入のための「ウェッジ(wedge)」として機能するようになるという見方がある

これまでに発表された新しい動き

  • 2024年5月: OpenAIがGPT-4o voiceをリリースし、リアルタイム音声応答機能を披露、CartesiaがSonicを発表
  • 2024年6月: Characterが音声通話機能をベータ導入、AppleがSiriへのChatGPT統合を発表
  • 2024年7月: OpenAIがAdvanced Voiceのロールアウトを実施、SpeechmaticsがFlowモデルを公開
  • 2024年8月: AmazonがClaudeをAlexaに統合、Metaが著名人の声を活用したAIコンパニオンを提供
  • 2024年9月: NotebookLMがAudio Overviewで話題を集め、PlayHTが2.0モデルを公開
  • 2024年10月: OpenAIがリアルタイムAPIをリリース、Kyutaiがモシ(Moshi)モデルを発表
  • 2024年11月: ElevenLabsがConversational AIをリリース、NVIDIAがFugattoモデルを発表、Gemini Liveがリアルタイムアプリを公開
  • 2024年12月: ChatGPT Advanced Voice Modeにインターネット検索を搭載、1-800-CHATGPTのリリースが話題に

何が変わったのか?

  • モデルインフラが簡素化され、低遅延かつ高性能な音声エージェントが登場した
  • ここ6か月間の新型対話モデルが、こうした性能向上の大きな原動力となっている
  • コスト低下も進んでおり、2024年12月にOpenAIはGPT-4oリアルタイムAPIの価格を大幅に引き下げた
  • GPT-4o miniもリアルタイム版として提供されている

現在の状況

  • モデル品質

    • 会話品質(遅延、割り込み可能性、感情表現など)は、ほぼ解決された水準にある
    • OpenAIのリアルタイム音声モデルや他モデルの進展により、コールセンター/BPOを上回る性能を示す事例もある
  • GTM(go-to-market)

    • エージェント製品は人員を直接代替できるため、急速に普及しうる
    • ただし参入障壁は低く、保守的な大企業では導入障壁が高い
    • GTMの実行力と追加の製品段階(act 2)が成功の鍵である
  • 収益化

    • 初期は分単位課金が中心だったが、モデルコストが急激に下がる中で価格圧力が強まっている
    • 今後はプラットフォーム利用料+従量課金の複合課金モデルが登場すると見込まれる
  • 競争構図

    • 企業向け音声エージェントは、開発者中心のプラットフォーム、ノーコード型の汎用プラットフォーム、特定業種に特化したソリューションと競争している
    • 競争はさらに激化する見通しである

市場の進化

  • 2024年下半期に音声エージェント市場は急速に成長した
  • さまざまな製品が音声機能を追加する流れにある
  • 対話型音声スタックの複数レイヤーで、新規資金調達と実際の顧客獲得が活発に進んでいる
  • 特に大企業では、人によるコール業務をすべてAIに置き換えるのではなく、まず一部の電話タイプから始めて徐々に拡大する傾向がある
    • 夜間・過負荷コール: 通常ならボイスメールに回っていた電話をAIが処理し、一定レベルの情報収集や取引処理が可能
    • 新規アウトバウンドコール: 採算性が低く従来は実施されなかった電話が可能になり、追加売上またはコスト削減効果が期待できる
      • 「バックオフィス」コール: 他社や機関に電話をかける業務の自動化により、効率向上が見込める

市場の進化 - 資金調達事例

  • モデル企業

    • ElevenLabs、Hume、PlayAI、Cartesia、WaveForms AIなどで、シリーズBやシードラウンドにわたる大規模な資金調達のニュースが続いている
  • 汎用プラットフォーム

    • Kore、Rasa、Parloa、PolyAI、Synthflow、Thoughtly、BlandなどでシリーズA〜Cの資金調達が進行
    • 特定産業(セールス、カスタマーサポートなど)に集中した11x、Decagon、Sierra、Artisanなども注目されている
    • Vapi、Retell AIのような開発者向けプラットフォームも登場している
  • バーティカルプラットフォーム

    • Hippocratic AI、Assort Health、Voicepanel、Letter、Solidroadなど、ヘルスケア・人事・緊急対応のような特化領域で多数のスタートアップが資金調達を受けている
    • Wayfaster、HappyRobotなども物流・インタビュー分野などで資金調達に成功している

重要なバーティカル市場

  • 音声エージェントが最初に導入される可能性が高いのは、コールセンター/BPO支出規模の大きい業種である
  • 金融、保険、B2C、B2B、政府、ヘルスケアなどの主要業種は、それぞれ独自の音声ソリューションを確保する可能性が高い
  • 以下の分野で起業家の取り組みが活発になると予想される
    • Financial services (例: 債権回収)
    • Insurance (顧客対応およびバックオフィス)
    • Government
    • Support services (専門知識が必要なITサポートなど、複雑な顧客対応)
  • コールセンターの範囲を超える領域でも、高年収職種向けのコーチング/トレーニング用AI音声エージェントへの支払い意欲が確認されている
    • 現実的な音声エージェントが「シミュレーター」の役割を果たし、業務能力を大きく向上させうる
    • これにより、セールスコーチなどの人件費や既存の低効率ソフトウェアを代替できる

注目すべきバーティカル - YC企業動向

  • YC参加の音声エージェント企業は急速に増加している
  • B2B(~69%)とヘルスケア(~18%)が主流で、B2Bの下位分野ではフィンテックや顧客サポート関連スタートアップが多数を占める
  • ヘルスケア分野はフロントオフィス(患者向け)とバックオフィス(薬局、保険会社など向け)に分かれる
  • 全体として、スタートアップは音声エージェントで多様な業界課題の解決を試みている

私たちが探しているもの

  • 電話が中核チャネルである、または規制・効率の観点で電話が最適化されている産業
    • 電話が顧客デモの優先手段になる場合(例: 物流)
    • 規制上、通話のほうが効果的な場合(例: 債権回収)
    • 他のアプローチより成功率が高い領域(例: ヘルスケア)
  • 通話の構造が明確で、測定可能でなければならない
    • 収集すべきデータポイントや伝えるべき情報が明確である
    • 結果を測定しやすく、企業がAI音声エージェント導入を気軽に検討できる
  • 人件費を50%以上削減しつつ、人間に近い成果を出せる必要がある
    • 代替される人員が明確である、または再配置可能なシナリオほど導入しやすい
    • 社内にAI懐疑論がありうるため、ROIは非常に大きくなければならない
  • 通話は顧客にとっては「生死に関わる問題」だが、発信・受信側は失敗を許容できる環境
    • 夜間・過負荷(overflow)電話や「サブプライム」電話から始めることが多い
    • 性能基準が低い領域では、AIが参入しやすい
  • 直接売上創出(例: 新規予約、決済)または高コスト支出領域(例: ドライブスルー)では、通話効率化の効果が大きい
  • SMB/ミッドマーケットに参入するには、簡単なVoIP連携やセルフセットアップが可能である必要がある
  • エンタープライズでは、初期統合が複雑であるほど参入障壁になる一方、うまく構築できれば競争優位にもなる
    • あるいは、統合の複雑さを低くして容易に始め、徐々に拡張することもできる
  • 全体として、高い成功率と大きなコスト削減効果を同時に達成するソリューションへの市場関心が高い

ケーススタディ - AI音声インタビュー

  • 当初は、複雑性とセンシティブさが高い採用面接にAI音声を導入するのは意外に思われた
  • しかし、人材業界では大規模かつ反復的な面接処理に大きな効果が見られた
  • 候補者体験を損なうことなく、より迅速で一貫性のある面接進行が可能になった
  • AIは必要に応じて即座に面接を実施でき、言語/アクセントの壁なく候補者を評価できる
  • 特に技術職では、一般的な人事担当者よりAIのほうが正確に評価できるというフィードバックがある
  • 企業は、面接通過率の向上と候補者マッチングの迅速化という利点を実感している