1 ポイント 投稿者 fastkoder 3 시간 전 | まだコメントはありません。 | WhatsAppで共有

タイトル:
Mac上で動作するリアルタイムAI音声Agent — TalkMode

サブタイトル:
視線追跡(Gaze)、リアルタイムSTT/TTS、Claude/OpenAI連携を基盤にしたAgent-OSスタイルの音声インターフェース

TalkMode は単純な音声チャットボットというより、
「リアルタイム作業型AI音声Agent」に近いプロジェクトです。

技術的に興味深いポイント:

  • macOSネイティブ基盤の低遅延音声インタラクション
  • リアルタイムSTT ↔ LLM ↔ TTSパイプライン
  • 日本語を含む多言語音声対話の最適化
  • gaze(視線)ベースのインタラクション実験
  • turn-taking(発話タイミング制御)の処理
  • OpenAI / Claude / CLI Agent連携構造
  • Agent OSスタイルのワークフロー志向
  • ローカル優先(local-first)アーキテクチャ志向

特に単純な「質問応答型ボイスチャット」ではなく:

  • 会議
  • ブレインストーミング
  • 開発支援
  • リサーチ
  • IDE/CLI接続

のような「継続的な作業フロー」を音声でつなげようとする方向性が見て取れます。

以下のような流れを実際に目指している印象です:

Mic Input  
  ↓  
Streaming STT  
  ↓  
Context / Memory  
  ↓  
LLM Agent  
  ↓  
Tool Calls / CLI  
  ↓  
Realtime TTS  

もう1つ興味深い点は、
従来のVoice Assistantが「モバイル秘書」のような印象だったとすれば、
TalkModeはClaude Code / Codex / ターミナル文化と結びついた
「開発者向け音声Agent」により近く見える点です。

公式サイト:
https://talkmode.baryon.ai/

GitHub:
https://github.com/baryonlabs

まだコメントはありません。

まだコメントはありません。