macOSの機能を100%活用するリアルタイム多言語AI Voice Agent — TalkMode
(talkmode.baryon.ai)タイトル:
Mac上で動作するリアルタイムAI音声Agent — TalkMode
サブタイトル:
視線追跡(Gaze)、リアルタイムSTT/TTS、Claude/OpenAI連携を基盤にしたAgent-OSスタイルの音声インターフェース
TalkMode は単純な音声チャットボットというより、
「リアルタイム作業型AI音声Agent」に近いプロジェクトです。
技術的に興味深いポイント:
- macOSネイティブ基盤の低遅延音声インタラクション
- リアルタイムSTT ↔ LLM ↔ TTSパイプライン
- 日本語を含む多言語音声対話の最適化
- gaze(視線)ベースのインタラクション実験
- turn-taking(発話タイミング制御)の処理
- OpenAI / Claude / CLI Agent連携構造
- Agent OSスタイルのワークフロー志向
- ローカル優先(local-first)アーキテクチャ志向
特に単純な「質問応答型ボイスチャット」ではなく:
- 会議
- ブレインストーミング
- 開発支援
- リサーチ
- IDE/CLI接続
のような「継続的な作業フロー」を音声でつなげようとする方向性が見て取れます。
以下のような流れを実際に目指している印象です:
Mic Input
↓
Streaming STT
↓
Context / Memory
↓
LLM Agent
↓
Tool Calls / CLI
↓
Realtime TTS
もう1つ興味深い点は、
従来のVoice Assistantが「モバイル秘書」のような印象だったとすれば、
TalkModeはClaude Code / Codex / ターミナル文化と結びついた
「開発者向け音声Agent」により近く見える点です。
公式サイト:
https://talkmode.baryon.ai/
GitHub:
https://github.com/baryonlabs
まだコメントはありません。