- ChatGPT以後に登場したテキストベースのインターフェースは強力だが、従来のGUI方式より直感性が低い
- 未来のUIはチャットの代わりに「文脈に合った操作」、インテリジェント検索、自動整理、即時フィードバックを提供する形へと進化している
- 例:AIベースの右クリックメニュー、自然言語検索フィールド、コマンドバー、FigmaのAIレイヤー整理、Grammarlyのリアルタイム提案 など
- 「ユーザーが次に取る行動」を予測して自動提案したり、さらにはUI自体をLLMがリアルタイム生成する試みまで進んでいる
- 従来型ソフトウェアは次第に古びたもののように感じられるようになり、新しいパターンを基盤とした製品が既存製品を置き換える可能性が高まっている
チャットはターミナルへの回帰
- LLMチャットは強力で柔軟であり、プログラミングもしやすい
- しかし直感的ではなく操作しづらく、初心者には威圧的な点は昔のターミナルに似ている
> チャットはデバッグ用インターフェースとしては有用だが、基本UXになってはいけない
ドキュメント中心 + 補助チャットUI
- ChatGPT Canvasのようにドキュメントやコードが中心で、チャットは補助手段として配置されるUIが広がっている
- Copilot in Excel、Cursor IDEなどでも同様の体験を確認できる
生成型右クリックメニュー
- AI機能はコンテキストメニューに自然に配置できる
- 例:Diaブラウザはカーソル位置に応じてAIコマンドを直接提案する
- 初期段階ではメニューが過度に複雑になる可能性があり、今後は洗練が必要
直感的な自然言語検索
- 「air canada confirmation」の代わりに「出張のフライトはいつ?」で検索できる
- 例:Superhumanの自然言語メール検索、Figmaのベースデザイン検索
- 正確なキーワードを覚えることを求めていたUXは次第に消えつつある
選択ではなく入力:より人間的な操作方法
- フィルター、日付、スタイルなど従来UIはドロップダウンベースの選択方式
- いまや**自然言語で「来週の水曜日」**と入力する方が自然だ
- コマンドバー(Command-K)、オートコンプリートベースの即時実行型インターフェースが広がっている
インラインフィードバック
- スペルチェックだけでなく、スタイル、主張、出典要求などのインラインAIフィードバックも可能
- Maggie Appletonの**「ライティングデーモン」**という概念:さまざまな性格のフィードバックキャラクターがリアルタイムで助言を提供する
自動整理機能
- FigmaのAIレイヤー名整理のように散らかったファイルも自動で構造化可能
- より複雑な整理も非チャット方式で自然に実装可能
要約と情報抽出
- Apple Intelligenceは雑談から重要情報を要約して提供する(「今日の約束はキャンセル、来週に移動」など)
- 情報過多の時代にシグナルだけを抜き出す非チャット型AI要約機能が必須になりつつある
音声 + マルチモーダル
- 音声インターフェースもチャットのような線形対話にとどまるべきではない
- 例:マウスでボタンを指しながら「このコードどこ?」と言うと、LLMがコード位置を開いてくれるような形
- ポインティング + 発話を同時に活用する人間的なマルチモーダルインターフェースが可能になっている
「次にやること」の提案:Tabキーのように自然に
- ユーザーのパターンにもとづいて次の行動を提案する
- Grammarlyのタイプミス提案、CursorのTabキー自動補完パターン
- 反復作業での手間を減らし、創造的思考に集中できるよう支援する
最終段階:LLMがリアルタイムでUIを生成
- bolt.newのようにUIコード生成はすでに現実になっている
- さらに特定ユーザーの目的に合わせてUI自体をリアルタイム生成する流れも現れている
- 欠点:学習が難しく、UIの状態がユーザーごとに異なる可能性がある
- 過去のOffice XPの適応型メニュー(IntelliMenus)は失敗例
- しかしLLMが十分に強力なら、新たな標準UIパターンとして定着する可能性もある
今こそ作るとき
- こうしたAIベースのUIパターンが段階的にソフトウェア全体を再構成している
- 従来のUXは時代遅れに見えるようになるだろうし、これを先に導入する製品が新しいユーザー期待値を設定することになる
- GUIがターミナルを置き換えた時代のように、いま再びソフトウェアUXの盤面が覆る時期に来ている
4件のコメント
似たような考えです。
最近、ファイル名を一括変更するプログラムを探してみたのですが、あらゆる機能を備えたプログラムは本当にとんでもなくメニューが多く、使い方も非常に複雑でした。
ファイル名の後ろに '_' を付けてのような簡単な作業をするために使い方を覚えなければならないので……強力になるほどおかしくならざるを得ないんですよね。そこで、LLMを使って新しく作りました。実際にファイル名を変更するコード部分はLLMに生成させるわけです。こうすれば複雑なUIはすべて取り払えます。
核心は、LLMが結局は内部的にコードを生成してリアルタイムで実行しなければならないということで、
従来のソフトウェアやUXの概念とは根本的に異なる点ですよね。
以前はすべてのロジックがあらかじめ用意されていて、このロジックとユーザーをつなぐことがUIの核心でしたが、今ではロジック自体も流動的になったので、UIはこのような動的なコード生成を生み出す役割も担わなければなりません。
ただ、すべてを置き換えられるわけではないと思います。既存のUIのほうが便利なものもあります。
(修正がなかったため追記します。)
https://www.bulkrenameutility.co.uk/#mainscreen
上のような従来のswは、LLMが導入されると下のように変わる可能性があります。
https://localfile.io/ko/run/rename/
UIUXの勢力図が変わるには、プラットフォームもスマートフォンやモニターというフォームファクターから脱却する試みが必要になりそうですね
https://x.com/karpathy/status/1917920257257459899
Andrej Karpathyの意見も一度比較してみるとよさそうですね。
LLMと「チャット」する体験は、まるで80年代のコンピューター端末を使っているようだ。GUI(グラフィカルユーザーインターフェース)はまだ発明されていない段階だが、その特性の一部はすでに予測可能だと私は考えている。
それは視覚的なものになるだろう(かつてのGUIのように)。なぜなら視覚情報(写真、チャート、アニメーションなど――読むことより見ること)は、脳へ入ってくる10車線の高速道路のようなものだからだ。視覚は最も高い情報入力帯域幅を持ち、脳の演算のおよそ1/3が視覚処理に割り当てられている。
それは生成的で、入力条件に応じて変化するものになるだろう。つまりGUIはユーザーのプロンプトに合わせてリアルタイムに生成され、すべての要素はその場の目的のために存在し、構成されることになる。
もう少し開かれた問いは、「手続き的(procedural)」な性格の度合いだ。一方の極端では、1つの巨大な拡散モデル(diffusion model)が出力キャンバス全体を一度に作り出すケースが想像でき、もう一方の端には、(手続き的に作られた)Reactコンポーネントで埋め尽くされたページがある(例:画像、チャート、アニメーション、ダイアグラムなど)。私の考えでは両者の混合になると思うが、後者が基本的な骨格を成すだろう。
だが今の時点で私が断言できるのは、能力が無限大に近づくほど、流動的で、魔法のようで、儚い(ephemeral)インタラクション可能な2DキャンバスGUIがその最終形になるということだ。そしてそれはすでにゆっくりと始まりつつあると見ている(例:コードブロック/ハイライト、LaTeXブロック、Markdownの太字/斜体/リスト/表、絵文字、さらに野心的なものとしてはArtifactsタブ、Mermaidチャートや、もう少し完全なアプリなど)。もちろん、まだどれも非常に初期的で原始的なレベルにある。
アイアンマン、そしてある程度はスタートレック/マイノリティ・リポートは、この方向性を示すポップカルチャーの中のAI/UIのよい事例だと言える。