AIサービスPM、今や「企画」を超えて「評価」を設計せよ
(maily.so)近年、生成AIサービスが急増する中で、PMの役割に根本的な変化が生じています。
これはQAの役割でも同様です。
これまでPMが要件(Spec)を定義し、QAが機能の正常動作(Pass/Fail)を検証していたとすれば、AI時代の品質はPMが自ら「定義」し「評価」しなければならない領域になりました。
- なぜQAではなくPMが品質に責任を持つのか?
- 正解の不在: AIの回答は、正しい・間違っているという問題ではなく、「良い・悪い」のスペクトラム上にあります。
- 評価の主観性: 「自然か?」「役に立つか?」のような定性的な基準は、製品のビジョンを最もよく理解しているPMだけが定義できます。
- 定義こそが品質: AIサービスにおける品質は、テストで見つけるものではなく、最初から何が「良い結果」なのかを定義することから始まります。
- 一般サービス vs AIサービス 品質管理の比較
従来の一般的なソフトウェアサービスとAIサービスでは、品質を見る観点から管理方法まで大きな違いがあります。
-
品質の基準と判断: 一般サービスでは、企画書がそのまま正解です。ボタンが動作するか、決済できるかのように、「正しい/誤り(Pass or Fail)」 を明確に分けられるO/Xクイズのような方式です。一方、AIサービスには明確な正解の代わりに「模範解答」があるだけです。品質は連続的なスペクトラム上にあり、正解かどうかよりも結果がどれだけ最適化されているかを判断する、小論文試験の採点方式に近いと言えます。
-
品質管理の中核と責任: 一般サービスでは、企画どおりに機能が完成しているかを検証する 「品質保証(QA)」 が重要であり、その責任は主にQA組織にあります。しかしAIサービスでは、何が良い結果なのか、その基準を定める 「評価設計」 が中核です。そのため、製品のビジョンを最もよく理解しているPMが品質の最終責任者になります。
-
検証方法の変化: 以前は、決められたシナリオに沿って機能が動作するかをテストしていましたが、AIサービスでは人が直接成果物を見て判断する 定性評価(Human Eval) を行います。さらに、PMが策定した基準を学習させたLLMを評価者(LLM Judge)として活用し、大量のデータを自動化された方法で検証しながら品質を改善していきます。
- AI PMのための品質管理5段階
- まず自分で点数を付けてみる: サンプルデータを抽出して直接採点し、自分自身の判断基準を認識します。
- 基準を明文化する: 「具体性」「現実性」などの漠然とした感覚を、説明可能な言葉で定義します。
- データセットを構築する: サービスが解決すべき中核的な質問リストと模範解答を作ります。
- 評価の自動化(LLM Judge): 定義した基準に基づいて、LLMに大量の結果を評価させます。\
- 指標を疑う: 評価スコアが高くなってもユーザー満足度が低いなら、基準そのものを再検討します。
💡インサイト
今やPMは、単に機能を作る人ではなく、「製品の価値判断基準」を設計する人です。何が良い結果なのかを定義し、それを測定する仕組みを作る経験は、AI時代のPMにとって最も強力な競争力になるでしょう。
2件のコメント
ブログ全文を読んでみると、もともとPMがやっていた仕事ですね。ただ、AI時代が来てやり方が少しずつ変わっているようです。良いインサイトをありがとうございました。
ありがとうございます。
企画もデザインも手法は変わり続けてきましたが、だんだんスピードが速くなっている感じですね。