Aqua Voice – 音声で動くテキストエディタ
(withaqua.com)- 音声認識と自然言語コマンドを組み合わせた、音声ベースの文書エディタ
- ユーザーが「リストにして」または「この本の86ページにインライン引用を追加して」のように話すと、そのコマンドを実行
- 音声認識ソフトウェアは依然として使いにくく、脆弱な体験を提供
- ソフトウェアは精度を競っているが、生成されたテキストの脆弱な性質には対処していない
- 特殊なコマンドを覚える必要があり、キーボードの代替手段としては不十分
- Aqua Voiceの解決方法
- Aquaは、ユーザーの発話をそのまま書き起こす、コマンドを実行する、または話した内容を意図した文章へと洗練して修正する機能を提供
- どもったり同じ文を何度も言い直した場合でも、Aquaは最終版だけを選んでテキスト化
- Aqua Voiceのビジョンと技術
- より自然な音声認識体験と、協調的なAIライティング体験の提供を目指す
- リアルタイムでモデルと継続的に接続されるストリーミング方式のサービスを提供
- 6つのモデルが協力し、意図に応じて文書を通訳・解釈・書き換え
- リアルタイム精度を向上させるために、MoE(Mixture of Experts)トランスクリプションを使用
1件のコメント
Hacker Newsの意見
すごい! いくつかフィードバックがあります:
他の人も言っているように、よくやった。
私は94/95年にRSI関連のけがをして以来、音声認識を使ってきた。Windowsから離れられるソリューションが欲しい。Firefox、Thunderbird、VS Codeで簡単にディクテーションできるソリューションが欲しい。最も重要なのは、Nuanceが「Select-and-Say」と呼んでいたテキスト編集/操作機能だ。ちょっとした編集や、新しいディクテーションで文を置き換えることなどができて、ほとんどのWhisper系アプリのように単にキャプチャされたディクテーションだけよりも、はるかに簡単に音声を使えるようにしてくれる。これができるなら、私は一生の顧客になるだろう。
natPythonパッケージを挙げておく。ここに元のプレゼンテーションと、人々が構築したものがある。私はデータ入力のためにこういうものを求めていた。測定しながら手がふさがっていて、メモを取らなければならないことがよくある。これは表形式のデータを出力/整形できるのだろうか?
これは本当にすごい。誰かがこれを作ってくれることを願っていた:
ディクテーションソフトウェアは医療業界で非常に重要だ。すべての医師がこれを使っており、あなたのソリューションのようなものは彼らの仕事をずっと効率的にできる。この市場セグメントを探ってみたことはある?
これは驚くほど素晴らしい! 使っていてとても満足感があり、文字起こし + 意図の組み合わせにはとてつもない可能性があるように思える。
患者向けの手紙などをディクテーションするのにこれを使いたい。ローカルモデル/HIPAA準拠はまだ先だろうか?
ローンチおめでとう!
私は音声よりテキストで作業するほうがずっと得意な、同じくニューロダイバージェントな人間として、このアイデアが心から気に入った。私の唯一のフィードバックは……これをもっとコントロールしながら動かしたいということだ。私はすでにLLMをローカルで動かしているし(たとえば LM Studio)、whisper のようなものも動かせる。オープンソース化すること(あるいはソースコードを利用可能にすること)が商業化の試みと相反しうるのは理解している。しかし、Red Hatのようないくつかの選択肢があり得る。たとえば、ビジネス利用には課金しつつ、個人利用についてはローカル実行を無料で認めるという形だ。
一方では、多くの人が恩恵を受けて使える分野で、強固な先行者利益を持っている。しかし、誰かが複数のLLM出力のいくつもの層を無理やり組み合わせれば、競合を提供できるだろう(そうしたプロジェクトはしばしばオープンソースだが、ときにそれほど「洗練」されていない)。よい条件を提示できれば、大成功の可能性があるかもしれない。幸運を祈る!
これはすばらしい、たぶん購読すると思う――ただ他のサブスクを減らさないといけない――最近は魅力的なAI製品が多すぎる。
明示的には書かれていないが、どのデータがクラウドに送られるのか知りたい。私はすべてを含む音声録音だと推測しているが、あるいはSTTはデバイス上で行われるのか? また、このデータに関するあなたのプライバシー/保持ポリシーは何か? 素晴らしいデモとすてきな製品だ!