AI MVPを超えて：本当に必要なもの

winterjung · 2025-04-03T12:56:26+09:00

AI製品を作る大半の企業は実験段階にとどまっており、信頼できるシステムやツールが不足している私たちの事例今年初め、LLMモデルを gpt-4o-2024-08-06 から gpt-4o-2024-11-20 に更新した主要プロンプトのテスト合格率が従来の100%から79%に低下した一方で Anthropic の Sonnet 3.5 は95%の合格率を示した多くのAI企業はベンダー間の切り替えをあまりに簡単に語るこれは単にAIをテストすべきだ、という話以上のものだモデル性能を測定し、モデル変更がどのような影響をもたらすのかを定量的に測るためのテスト基盤を構築するのは、そう簡単ではない私たちが定量化のために構築したもの少なくとも30以上のユニークなテストシナリオプロンプトの期待出力と実際の出力を比較するコードテストランナーそのもの CIで適切なコストでテストを実行できる戦略ほとんどのチームが陥るAI MVPの罠 1段階. 欺瞞的なMVP: わずか数日で完成したように見えるデモが出てくる。しかし、すぐに基本的なミスをするようになる 2段階. ±0: これを改善しようと努力するが、ますます複雑になるばかりで予測不可能になる。企業の90%の大半がこの段階にいる 3段階. 科学: この時点で評価用テストやオブザーバビリティツールなどが必要だと気づき、作り始める 4段階. 実際に動く: ついに継続的なモニタリング、包括的な評価用テストセット、迅速な分析ツールを備えるこれらすべては簡単でも単純でもなく、難しい仕事だ多くの企業は混沌としたMVP段階にとどまり、リリースしたAI機能の性能がどうなっているのかすら理解していない「必要なのはただXだけだ」と言ってAI製品を売るのは、現実をあまりにも単純化している誰かがマルチプロバイダーAI戦略を構築していると言ったら、どのように測定し評価しているのかを尋ねるべきだ

(blog.lawrencejones.dev)

16 ポイント投稿者 winterjung 2025-04-03 | まだコメントはありません。 | WhatsAppで共有

AI製品を作る大半の企業は実験段階にとどまっており、信頼できるシステムやツールが不足している
私たちの事例
- 今年初め、LLMモデルを gpt-4o-2024-08-06 から gpt-4o-2024-11-20 に更新した
- 主要プロンプトのテスト合格率が従来の100%から79%に低下した
- 一方で Anthropic の Sonnet 3.5 は95%の合格率を示した
多くのAI企業はベンダー間の切り替えをあまりに簡単に語る
- これは単にAIをテストすべきだ、という話以上のものだ
- モデル性能を測定し、モデル変更がどのような影響をもたらすのかを定量的に測るためのテスト基盤を構築するのは、そう簡単ではない
私たちが定量化のために構築したもの
- 少なくとも30以上のユニークなテストシナリオ
- プロンプトの期待出力と実際の出力を比較するコード
- テストランナーそのもの
- CIで適切なコストでテストを実行できる戦略
ほとんどのチームが陥るAI MVPの罠
- 1段階. 欺瞞的なMVP: わずか数日で完成したように見えるデモが出てくる。しかし、すぐに基本的なミスをするようになる
- 2段階. ±0: これを改善しようと努力するが、ますます複雑になるばかりで予測不可能になる。企業の90%の大半がこの段階にいる
- 3段階. 科学: この時点で評価用テストやオブザーバビリティツールなどが必要だと気づき、作り始める
- 4段階. 実際に動く: ついに継続的なモニタリング、包括的な評価用テストセット、迅速な分析ツールを備える
これらすべては簡単でも単純でもなく、難しい仕事だ
- 多くの企業は混沌としたMVP段階にとどまり、リリースしたAI機能の性能がどうなっているのかすら理解していない
- 「必要なのはただXだけだ」と言ってAI製品を売るのは、現実をあまりにも単純化している
- 誰かがマルチプロバイダーAI戦略を構築していると言ったら、どのように測定し評価しているのかを尋ねるべきだ

AI MVPを超えて：本当に必要なもの

関連記事

まだコメントはありません。