- テック業界では数年おきに新しいAI技術が登場するたびに、「今度こそ自然言語インターフェースがすべてを変える」という幻想が繰り返されている
- Siri、Alexa、チャットボット、AirPodsプラットフォーム、そして最近では大規模言語モデル(LLM)まで、この流れに乗っている
- しかし実際には、私たちのコンピューターの使い方はほとんど変わっていない
- 人は自然言語を「自然なのだから、当然これが最終形だ」と信じがちである
- この記事の主張は、自然言語インターフェースは理想形ではなく、実際には効率的な方法でもないという点にある
自然言語は遅く、損失の多いデータ伝送方式である
- 自然言語は、アイデアや知識を人間同士でやり取りするためのデータ伝送メカニズムである
- データ伝送で重要な2つの要素は、速度と**損失率(lossiness)**である
- 私たちは思考自体は1分あたり1,000〜3,000語レベルで高速に進めるが、それを話したり書いたりして表現する速度ははるかに遅い
- たとえば、読む/聞く(受信)は速い一方で、書く/話す(送信)は遅い → 自然言語はボトルネックになる
- その代わり、人はジェスチャー(親指を立てる、うなずくなど)を使って、より速く簡潔に意思を伝える
- こうした方法はデータ圧縮に近い → 損失はあるが、速度と利便性の面では優れている
- 最も効率的な例は、長年連れ添った夫婦が言葉を交わさなくても互いの要望を察する瞬間のようなものだ
人間とコンピューターの相互作用の進化
- 初期のコンピューターはコマンドベースのテキストインターフェースを使っていたが、GUIの導入により、視覚的要素を通じて作業をより簡単に行えるようになった
- 現在はGUIとキーボードショートカットを組み合わせた生産性の均衡状態にある
- ⌘b、⌘t、⌘c/v のようなショートカットは自然言語ではなく、データ圧縮方式であり、はるかに速く効率的である
- Linear、Raycast、Superhuman などのツールは、この圧縮入力を最大化している → 慣れると、ほとんど思考と同時に作業を実行できる
- タッチインターフェースは補完的な機能として定着したが、本格的な生産性作業はいまも主にデスクトップで行われている
- モバイルはテキスト入力が遅く不便である(平均36WPM) → モバイル向けのショートカット代替がない
- このため、モバイルの生産性ツールはデスクトップほど発展できていない
対話型インターフェースは入力速度で不利である
- 音声はタイピングより速い入力手段(150WPM vs 60WPM)だが、実際の利用では非効率である
- 例: 「Hey Google、天気を教えて」は、アプリアイコンを押すより10倍遅い
- Siri や Alexa が失敗した理由は、AIの出力品質ではなく、入力方式の煩わしさにある
- LLMもまた、入力方式の非効率性を解決できていない
- ボタンひとつでできることを文章で説明するのは、むしろ後退である
対話型UIは補完手段として活用されるべきである
- LLMは既存のインターフェースを置き換えるのではなく、補完する形で非常に有用である
- 筆者は実際に散歩中、ChatGPTとの音声対話を通じてこの記事の草案を作成した → LLMを思考のパートナーとして使った
- これは速度中心ではなく思考中心の作業であり、既存のワークフローを置き換えるのではなく、まったく新しいユースケースである
- 最も理想的な例は、StarCraft II で Alexa を補助入力手段として活用したハッカソン事例である
- マウス/キーボードを置き換えず、音声を追加の入力方式として活用することで、データ伝送帯域幅を拡張している
- Figma、Notion、Excel のようなツールがチャットUIに置き換えられることはないだろう
- その代わり、LLMはツール間をつなぐ常時稼働するメタレイヤーとして位置づけられるべきである
- 例: ユーザーがマウスやキーボードで作業している最中でも、音声で簡単にコマンドを実行できるべきである
- そのためには、AIは単一のアプリではなく、OSレベルで動作しなければならない
- 同時に、音声入力をより速くできる方式(例: 口笛、感情認識など)も必要である
- 対話型インターフェースであっても、結局のところ速度と利便性が核心である
結論: 置き換えではなく補完として捉えるべきである
- この記事のタイトルはクリックを誘うための誇張である
- 本当の主張は「対話型インターフェース反対」ではなく、ゼロサム思考への反対である
- AIは既存のインターフェースを置き換えるのではなく、新たな可能性を開く補完要素である
- 理想的な未来とは、人とコンピューターが自然で無意識的な相互作用を行うことだ
- まるで朝食のテーブルで、言葉にしなくてもバターが自動的に手渡されるように
5件のコメント
私もインターフェース面では似たような悩みをしていましたが、これといった新しいインターフェースが思い浮かばなかったんですよね。
本文で紹介されている https://upsidelab.io/blog/design-voice-user-interface-starcraft の記事は2018年のものですが、それでも興味深いですね
将来的に、どんな形で選ばれ、使われるのか気になりますね。
人間は会話の際に不確実性を嫌うため、正確な言葉を使いたいという欲求を捨てにくい。だが、ChatAIやLLMは本質的に不確実性を内包している。確率的な情報が自分だけにあるなら問題ないが、相手まで確率に依存するとストレスを感じる。時には決定論的な方式のほうが気が楽なこともある。
Hacker Newsの意見
コンピューターとの「対話」に興味を持つ人たちに説明しようとしていたいくつかの点を、明確に言語化している内容
記事で誤っている部分
スタートレックは対話型インターフェースの適切な使い方をよく示している
音声UIはキーボード/マウスと一緒に使うと最も効果的
音声入力をより速く伝送する方法を見つける必要がある
記事のタイトルは誤解を招く可能性がある
外向的で管理職的な人たちは、問題を解決するためにとりあえず話を投げることを好む
20〜30年前までは人間はコンピューター化されていなかった
テキスト-to-CADのAIツールはユーザーの要求をうまく理解できない
コンピューターとの関係はテレパシーのようになってほしい