9 ポイント 投稿者 xguru 2024-03-29 | 1件のコメント | WhatsAppで共有
  • 音声認識と自然言語コマンドを組み合わせた、音声ベースの文書エディタ
  • ユーザーが「リストにして」または「この本の86ページにインライン引用を追加して」のように話すと、そのコマンドを実行
  • 音声認識ソフトウェアは依然として使いにくく、脆弱な体験を提供
    • ソフトウェアは精度を競っているが、生成されたテキストの脆弱な性質には対処していない
    • 特殊なコマンドを覚える必要があり、キーボードの代替手段としては不十分
  • Aqua Voiceの解決方法
    • Aquaは、ユーザーの発話をそのまま書き起こす、コマンドを実行する、または話した内容を意図した文章へと洗練して修正する機能を提供
    • どもったり同じ文を何度も言い直した場合でも、Aquaは最終版だけを選んでテキスト化
  • Aqua Voiceのビジョンと技術
    • より自然な音声認識体験と、協調的なAIライティング体験の提供を目指す
    • リアルタイムでモデルと継続的に接続されるストリーミング方式のサービスを提供
    • 6つのモデルが協力し、意図に応じて文書を通訳・解釈・書き換え
    • リアルタイム精度を向上させるために、MoE(Mixture of Experts)トランスクリプションを使用

1件のコメント

 
xguru 2024-03-29

Hacker Newsの意見

  • すごい! いくつかフィードバックがあります:

    • 「1000トークン」という用語は非技術系ユーザーには意味がなく、私にとってもほとんど意味がない。単純に、どれくらいの単語数を話せるのかを示してくれればよい
    • あのセリフ体フォントのLaTeXエラー率表も退屈すぎる。人々が求めているのは「macOSのディクテーションより最大7倍少ないエラー」のような派手な表現であって、比較表ではない
    • 「0.05単語誤り率」も消したほうがいい。それが何を意味するのか説明し、百分率を使うべきだ
    • 「名前、単語、事実、数字を忘れましたか? Aquaに埋めてもらいましょう。」この機能はオフにできるとよいし、少なくとも私が話していない内容が文書に挿入されるときには明確な表示が欲しい。ディクテーションするときは、基本的に自分が話した単語だけがページ上にあってほしい
  • 他の人も言っているように、よくやった。

    • これは特に電話や時計で良さそうだ。キーボード体験があまりよくない場所でメモを取れる能力という意味で、本当のゲームチェンジャーに思える
    • コードを書くのに使ってみたことはある? これはIDE/テキストエディタのプラグインとして驚くほど優秀かもしれない
    • AIで残念なことをしていないのがよい。私たちが目にする多くのアプリケーションはひどい。あなたが作ったものは素晴らしく、呪われたチョコレート工場のような体験とはほど遠い
  • 私は94/95年にRSI関連のけがをして以来、音声認識を使ってきた。Windowsから離れられるソリューションが欲しい。Firefox、Thunderbird、VS Codeで簡単にディクテーションできるソリューションが欲しい。最も重要なのは、Nuanceが「Select-and-Say」と呼んでいたテキスト編集/操作機能だ。ちょっとした編集や、新しいディクテーションで文を置き換えることなどができて、ほとんどのWhisper系アプリのように単にキャプチャされたディクテーションだけよりも、はるかに簡単に音声を使えるようにしてくれる。これができるなら、私は一生の顧客になるだろう。

    • 次に重要なのは、文法のためのアクションルーチンを書ける能力だ。私の好みはPythonだ。chatGPTでコードを書くときに最も扱いやすい対象だからだ。ただ、他の言語も学べるだろう(JavaScriptを除く、私はあれが嫌いだ)。参考として Joel Gould の natPython パッケージを挙げておく。ここに元のプレゼンテーションと、人々が構築したものがある。
    • 過去からの教訓がある。DragonDictate/NaturallySpeakingの初期段階で、BakerがDragon Systemsを運営していたころ、彼らは定期的に社員を地元の音声認識ユーザーグループの会合に参加させ、何がうまくいき何が失敗したかを私たちに話させていた。彼らは、私たち障害当事者を見ることが、他のどのユーザーコミュニティよりも優れた音声認識環境をどう構築するかについて多くの情報を与えてくれると分かっていた。私たちは誰よりも先にコーナーケースを見つけた。彼らはいくつか良いことをした。たとえば、いくつかの音声認識ユーザーグループの会合を、場所やスタッフの時間の提供で支援していた。
    • Nuanceはその教訓を忘れたようだ。
    • ともあれ、今日は仕事をするつもりだったのに、あなたのプレゼンがそれを吹き飛ばしてしまった。 :-)
    • [追記] 本当に印象的だ。これにもっと時間を割くべきなのは明らかだ。Naturally Speakingでの経験が私の視野を狭めていたのが分かるし、あなたはユーザーインターフェースがどうあり得るかについて、はるかに広い視野を持っている。
  • 私はデータ入力のためにこういうものを求めていた。測定しながら手がふさがっていて、メモを取らなければならないことがよくある。これは表形式のデータを出力/整形できるのだろうか?

  • これは本当にすごい。誰かがこれを作ってくれることを願っていた:

    • 私はこれに月10ドルを喜んで払う。だが本当に欲しいのは次のどちらかだ:
      • Raycastプラグインまたはデスクトップアプリとして、これが私の環境内のあらゆる編集可能なテキスト領域とやり取りできるようにしてくれること
      • 既存のテキスト/コンテキスト + オーディオストリームを渡し、完全な文書更新のハートビートを返してくれるAPI。そうすればコミュニティが、Obsidian/VSCode/ブラウザのプラグインを、テキスト入力の広大な領域に向けて構築できる
    • 今日の午後にどうせ10ドル払うつもりだし、おめでとう!
  • ディクテーションソフトウェアは医療業界で非常に重要だ。すべての医師がこれを使っており、あなたのソリューションのようなものは彼らの仕事をずっと効率的にできる。この市場セグメントを探ってみたことはある?

  • これは驚くほど素晴らしい! 使っていてとても満足感があり、文字起こし + 意図の組み合わせにはとてつもない可能性があるように思える。

    患者向けの手紙などをディクテーションするのにこれを使いたい。ローカルモデル/HIPAA準拠はまだ先だろうか?

  • ローンチおめでとう!

    私は音声よりテキストで作業するほうがずっと得意な、同じくニューロダイバージェントな人間として、このアイデアが心から気に入った。私の唯一のフィードバックは……これをもっとコントロールしながら動かしたいということだ。私はすでにLLMをローカルで動かしているし(たとえば LM Studio)、whisper のようなものも動かせる。オープンソース化すること(あるいはソースコードを利用可能にすること)が商業化の試みと相反しうるのは理解している。しかし、Red Hatのようないくつかの選択肢があり得る。たとえば、ビジネス利用には課金しつつ、個人利用についてはローカル実行を無料で認めるという形だ。

    一方では、多くの人が恩恵を受けて使える分野で、強固な先行者利益を持っている。しかし、誰かが複数のLLM出力のいくつもの層を無理やり組み合わせれば、競合を提供できるだろう(そうしたプロジェクトはしばしばオープンソースだが、ときにそれほど「洗練」されていない)。よい条件を提示できれば、大成功の可能性があるかもしれない。幸運を祈る!

  • これはすばらしい、たぶん購読すると思う――ただ他のサブスクを減らさないといけない――最近は魅力的なAI製品が多すぎる。

  • 明示的には書かれていないが、どのデータがクラウドに送られるのか知りたい。私はすべてを含む音声録音だと推測しているが、あるいはSTTはデバイス上で行われるのか? また、このデータに関するあなたのプライバシー/保持ポリシーは何か? 素晴らしいデモとすてきな製品だ!