- 仕事用ソフトウェアを好きな人はほとんどいない
- 優れた製品でも、実務に適用する際に柔軟性や洗練が足りず、学習曲線が急で使いづらいケースが多い
- 生成AIは、ワークフローを完全に作り直せる機会を提供し、ゼロからまったく新しい製品を作ることまで可能にする
- AIネイティブワークフローは、ユーザーが既存の作業をより効率的に実施できるよう支援する
- こうしたプラットフォームでは、ユーザーが低レベルの作業をAIアシスタントに委ね、高レベル思考により多くの時間を使えるようになる
- すべての人がプログラマー、プロデューサー、デザイナー、ミュージシャンになれるよう、新しい技術と美的技術を解放するのに役立つ
- 創造性とスキルの差が縮まる
- AIベースのワークフローを備えた「専門家レベルでありながら消費者に優しい製品」を使えば、誰もが次世代の「プロシューマー」になれる
- (プロシューマー:生産者と消費者の役割を同時に担う人。アルヴィン・トゥーリングが『第三の波』で使った)
GenAIネイティブのプロシューマー製品はどんな姿だろうか?
- すべてのGenAIネイティブワークフロー製品には、先端モデルを使いやすく効果的なUIへ変換するという共通した特徴がある
- ユーザーは製品の背後にあるインフラより、製品がどのように役立つかに関心を持つ
- GenAIで実現した技術的な飛躍は驚くべきだが、成功する製品は依然としてユーザーとその課題に対する深い理解から始まる
- 成功する製品は
- ユーザーの痛点を深く理解し、
- AIで何を抽象化できるか、
- 承認が必要な意思決定ポイントはどこか、
- 最大のインパクトを与えられるポイント(レバレッジポイント)はどこかを中心にする
GenAIネイティブ・プロシューマー製品の主要機能
- 「空白ページ」問題を解決する生成ツール
- 自然言語プロンプトからメディアを生成し、最初の着手を支援する
- 独自モデルで実行するか、複数のモデルを組み合わせて使用
- 例)Vizcomのレンダリングツール、Durableのウェブサイトビルダー
- マルチモーダル(およびマルチメディア)構成
- 多くのクリエイティブプロジェクトには2種類以上のコンテンツタイプが必要。画像とテキスト、音楽と動画、アニメーションと音声解説など
- しかし現時点では、これらのアセットタイプをすべて生成できる単一モデルは存在しない
- これは、ユーザーが1か所でさまざまなコンテンツタイプを生成・改善・組み合わせできるワークフロープロダクトへの機会を生む
- 例)HeyGenのアバター(自社アバターとElevenLabsのTTSを組み合わせて、リアルに話すアバターを生成)
- より多くの反復を可能にするインテリジェントエディタ
- 「一度に得られる」作業成果はほとんどない
- 固有のランダム性を持つAIではなおさらで、最初の実行で正確に望みどおりを得られることはほぼない
- 再生成ボタンを押すか、プロンプトを修正することは重要だが、時間がかかり、がっかりするプロセスになる
- AI初代製品の第一波は、反復をほぼ許容しなかった。同じプロンプトを再実行するとまったく別の結果が得られた
- いまや、ユーザーが最初からやり直すのではなく、既存の出力を持ち込んで磨き上げられる機能が見え始めている
- 例)Midjourneyのバリエーションおよび拡大/縮小ツール、Pikaの特定領域修正機能
- プラットフォーム内のRefinement(リファインメント)
- インテリジェント編集のもう1つの重要な要素はRefinement
- ポリッシング(研磨)作業の最後の10%はしばしば「良いもの」を作ることと「優れたもの」を作ることの違いである
- ただし、(1)リファインすべきものを見つけ、(2)別の場所へ移らずにリファインするのは、非常に難しいことがある
- AIワークフロー製品は、ユーザーが改善点を特定したうえで、それを自動的に改善できるよう支援する
- Appleの写真に対する「自動リタッチ」に似ているが、あらゆるものに動作すると考えればよい
- 例)Kreaのアップスケーリング機能、ElevenLabsのオーディオブックワークフロー
- リミックスおよび変換可能なアウトプット
- すべてのコンテンツは、別の反復に向けた潜在的な「開始点」になり得る
- Midjourney/ChatGPTで他者が作成したプロンプトをコピーして修正したことがあれば、すでにここに参加していることになる
- この柔軟性をうまく活用するプラットフォームは、より強力で密着した製品を作り出せる
- 初期の制作者にとっては、動画をブログ記事へ変換したり、テキスト説明書を使い方のアニメーション動画へ変換するなど、複数メディアにまたがって作業を変換できる点で大きな価値がある
- 例)Gammaパブリッシングプラットフォームの中核機能:プロンプトまたはアップロードしたファイルから、デッキ・文書・ウェブページを生成し、必要に応じてフォーマットを変換可能
- このような製品を使えば、他者が反復できるようにワークフローを公開することも可能
- 一連のプロンプトやモデルの組み合わせであることもあり、技術レベルが低いユーザーが出力や美意識を模倣できる「コピー」ボタンであることもある
- 例)写真家向け編集プラットフォームImagen AI:
- 各写真家の個別スタイルに合わせてモデルを訓練し、より簡単にバルク編集できるようサポート
- また、ユーザーはプラットフォームでプロフィールを公開している業界トップの写真家のスタイルで編集することも可能
プロシューマー製品はどのように進化するだろうか?
- 次世代のプロシューマーツールはまだ初期段階
- 既存ツールの中核的なアセット生成機能はついに意味のあるワークフローを追加できるほど強化されたが、大半の製品は依然として1種類のコンテンツにのみ焦点を当てており、機能面ではかなり制限されている
- 期待される製品
- 複数のコンテンツモダリティを統合する編集ツール
- 動画が最も良い例になるかもしれない
- 現在、AIで短編映画を制作するには、PikaやRunwayのような製品で複数のクリップを生成した後、編集や音響ミキシングのためにCapcutやKapwingなど他プラットフォームへ移動しなければならない
- このプロセスのすべてを1つのプラットフォームで実施できたらどうだろうか?
- 次世代製品の一部は、さらに多くのワークフロー機能を追加し、自社モデルの学習、オープンソースモデルの活用、または他プレイヤーとの提携を通じて、他の種類のコンテンツ制作へ拡張できると考えられる
- また、ユーザーが多様なモデルを「プラグイン」できる新たなスタンドアロンAIネイティブ編集機が登場する可能性もある
- 異なるインタラクションモードを活用する製品
- テキストプロンプトが常にAI製品とコミュニケーションする最適な方法とは限らない
- 人間のブレインストーミングパートナーと音声・スケッチ・リファレンス画像の共有などで協働するのと同様に、生成ツールを使って作業できるべきだと考える
- 特に、ユーザーがより高度で複雑な思考を共有できる(あるいはテキストでは不可能なかたちでどんどん話せる)形式として、音声に対する期待は大きい
- 音声メモをメール、ブログ投稿、またはツイートに変換できるOasis、TalkNotes、AudioPenなどは既にこうした製品が登場し始めている
- 今後、より多くのワークフロープロダクトでオーディオと動画が入力ソースとして提供され、ユーザーが仕事をこなす方法とタイミングが変わるだろうと予想される
- 人間とAIが生成したコンテンツを等価に扱う製品
- AIと人間のコンテンツを並列で使えるツールがあればよい。現在のほとんどの製品はどちらか一方に焦点を当てている。
- たとえば、実写写真の補正は得意だがAI画像には全く対応できない例がある
- あるいは、新しい動画を生成できるがiPhoneのクリップを補正したりスタイルを変更できない例もある
- 今後は、ほとんどのプロのコンテンツ制作者がAIと人間が作ったコンテンツを混在させて作業するだろうと考える
- これらが使う製品は、2種類のコンテンツを両方受け入れ、より簡単に統合できる必要がある
- Runwayの編集ツールがそれをよく示している
- 同社の生成モデルからクリップと画像を取り込み、実在のアセットをアップロードして同一タイムラインで使用可能
- その後、インペインティングやグリーンスクリーンのような同社の「魔法のツール」を2種類のコンテンツの両方に使える
- ここで詳しく見たコンテンツワークフロープロダクトは、プロシューマーソフトウェアの未来を構成する重要な要素の一つに過ぎない
- まもなく、第二の主要構成要素である生産性ツールについて詳しく見ていき、AI時代にも同様に再生産できると考えられる生産性ツールを再検討する予定
2件のコメント
AIプロシューマー製品の差別化要素としてワークフローの組み合わせが提示されていますが、これは従来のローコード・プラットフォームの限界と本質的に同じだと考えます。
現場の実務担当者に与えられるすべての作業がローコードで制御できるほど適切な複雑さを持つわけではなく、しばしば作業自体の複雑度が高いため、ローコード・プラットフォームで解決するよりも、専門的なプログラミング技術で複雑さを制御する方がよい場合もあります。プログラミングを電子回路の構成に例えるなら、ローコード・ソリューションはブレッドボードに対応します。ブレッドボードでは、まず動作する電子回路をいろいろ組み立てて試作してみることはできますが、ブレッドボードで信頼性が要求される集積回路を作ることはできないのと同じです
これをコンテンツ制作に当てはめて考えると、AI生成ツールの限界によって成果物の厳密さや細やかさをコントロールできないのではないかという懸念があります。今出ているAI画像が指をきちんと描ききれないのように。学習曲線は下がるとはいえ、それほど劇的にはならないと思います