8 ポイント 投稿者 xguru 2024-11-01 | まだコメントはありません。 | WhatsAppで共有
  • 生成AIは、他の技術とは異なり、人を驚かせる力を持っている
    • それが良いこともあれば、そうでないこともある
    • こうした技術体験の中心には、期待に関する問いがある
      • 「これは本当に自分が期待したものなのか。出力は十分に良いのか。それとも自分はだまされているのか」
  • 理論上は生成AIの進歩とともにこの問題の重要性は下がるはずだが、現実には、より『人間らしく』なるほど不穏で居心地の悪いものになりうる
    • これはロボティクスで長らく「不気味の谷(uncanny valley)」と表現されてきた状況に陥ることを意味する
  • より大きなデータセットやより良い学習で補正できるとして見過ごしたくなるかもしれないが、技術に対する私たちのメンタルモデルの混乱を語る限り、これは「認識して解決すべき問題」である

メンタルモデルとアンチパターン

  • メンタルモデルはUXやプロダクトデザインで重要な概念だが、AIコミュニティでももっと積極的に取り入れられるべきである
    • 日常生活ではあまり表面化しないことが多い。AIシステムについて仮定すること自体が日常的なパターンだからだ
  • AIコーディングアシスタントの人気が高まる中で、「AI生成コードに対する安易さ」と「生成AIによるペアプログラミングの置き換え」は避けるべき2つの慣行として指摘されている
    • どちらも、この技術が「実際にどう動くのか」と「限界を認めない誤ったメンタルモデル」に由来している
    • これらのツールがより説得力を持ち、より『人間的』になるほど、技術が実際にどう動くのかや、それが提供する『解決策』の限界を認めることは難しくなる
  • 生成AIを世の中に展開する側にとっても、リスクは同様か、あるいはさらに顕著かもしれない
    • 一般には説得力があり使えるものを作ろうとする意図があるが、ユーザーを誤導したり、だましたり、不快にさせたりするなら価値は失われる
    • EU AI Actのように、ディープフェイクの作成者に対してAI生成コンテンツであることの表示を義務づける法律が登場するのも不思議ではない
  • AIやロボティクスだけでなく、クロスプラットフォームのモバイルアプリ開発にも似た問題がある
    • 異なるプラットフォームは使われ方が違うため、体験全体の設計を変える必要がある
    • 同様に生成AIでも、異なる文脈やユースケースごとに異なる前提やメンタルモデルがあり、ユーザーが不気味の谷に落ちる地点も異なる
    • こうした微妙な差異が、LLMの出力に対する体験や認識を変化させる
  • 膨大な量の合成データを必要とする医薬品研究者にとってはミクロレベルの正確性が重要でないかもしれないが、法的文書を把握しようとする弁護士にとっては正確性がきわめて重要である
    • 不気味の谷に落ちることは、一歩引いて期待値を見直すべきだというシグナルかもしれない

「既存の生成AIに対するメンタルモデルと概念は、無視できる副次的な問題ではなく、根本的なデザイン問題である」
Ken Mugrage & Srinivasan Raguraman

視点の転換

  • 生成AIにおける不気味の谷は問題である一方で、この技術の限界を思い出させる道具でもある
  • 業界全体でこれに対処するための興味深い試みが行われてきた
    • ペンシルベニア大学のEthan Mollick教授は、AIを優れたソフトウェアではなく「かなり優秀な人たち」として理解すべきだと主張している
      • AIには人間のように独特の強みと弱みがあるため、どんな作業を任せられるかを見極めるのは難しい
      • マニュアルがないため、AIが何を得意とするのかを知る唯一の方法は、一緒に働きながら学ぶことだ
    • つまり、生成AIに何ができ、どこで効果を発揮するのかについての期待は暫定的で柔軟であるべきだ
    • ある程度、自分たちの前提や期待を内省することが、不気味の谷を乗り越えるひとつの方法になりうる

ブラックボックスをひもとく

  • 考え方の転換を求めるだけでは十分ではない
    • それは第一歩ではあるが、生成AIを違った形で捉え、メンタルモデルが突きつける課題に対処する助けとなる実践やツールも必要である
  • ひとつの例が、最新のTechnology Radarで取り上げられた「LLMから構造化出力を得る」という手法である
    • プロンプト時に特定の形式で応答するよう指示するか、ファインチューニングによって実現できる
    • Instructorのようなツールのおかげで、以前より容易に実行できるようになっている
    • 期待値とLLMの出力のあいだに、より高い整合性をもたらすという利点がある
      • 想定外のものや完全には一致しないものが出る可能性はあるが、この手法はその問題をある程度緩和する
  • このほかにもさまざまな手法がある
    • Retrieval-augmented generationは、一般に厄介な「コンテキストウィンドウ」の制御をよりうまく扱う方法である
    • こうした手法の成功を評価・測定できるフレームワークやツールが登場しているのは喜ばしい
      • Ragasは、忠実性や関連性といった指標をAI開発者に提供する有用なライブラリである
      • DeepEvalもRadarで紹介されている
  • 測定は重要だが、LLMに関する適切なガイドラインやポリシーを考えることも重要である
    • そのため、LLM Guardrailsの検討を勧めたい
    • また、こうしたモデルの内部で実際に何が起きているのかをよりよく理解するための取り組みも必要である
      • こうしたブラックボックスを完全に解き明かすことは不可能かもしれないが、Langfuseのようなツールによって、チームや組織はその挙動についてより明確な視点を得られる
      • それは、この技術との関係を再定義し、メンタルモデルを変え、不気味の谷に陥る可能性を取り除くうえで大いに役立つかもしれない

欠陥ではなく機会

  • 「生成AIツールのカンブリア爆発」と表現されたこれらのツールは、業界の中核にいる人々が生成AIを再考し、より良い製品を構築する助けとなりうる
  • しかし、より広い世界にとっては、この取り組みは見えにくいだろう
    • したがって、ツールチェーンを進化させて生成AIをよりよく制御・理解する方法を模索するだけでなく、既存のメンタルモデルと生成AIという概念そのものが根本的なデザイン問題であると認めることが重要である
    • 今後に向けて、無視できる副次的な問題ではない

「生成AIの不気味の谷は、修正すべき問題ではなく、私たちがこの技術に本当に何を望み、何を期待しているのかを再評価する機会である」

まだコメントはありません。

まだコメントはありません。