- AI製品を作る大半の企業は実験段階にとどまっており、信頼できるシステムやツールが不足している
- 私たちの事例
- 今年初め、LLMモデルを
gpt-4o-2024-08-06 から gpt-4o-2024-11-20 に更新した
- 主要プロンプトのテスト合格率が従来の100%から79%に低下した
- 一方で Anthropic の Sonnet 3.5 は95%の合格率を示した
- 多くのAI企業はベンダー間の切り替えをあまりに簡単に語る
- これは単にAIをテストすべきだ、という話以上のものだ
- モデル性能を測定し、モデル変更がどのような影響をもたらすのかを定量的に測るためのテスト基盤を構築するのは、そう簡単ではない
- 私たちが定量化のために構築したもの
- 少なくとも30以上のユニークなテストシナリオ
- プロンプトの期待出力と実際の出力を比較するコード
- テストランナーそのもの
- CIで適切なコストでテストを実行できる戦略
- ほとんどのチームが陥るAI MVPの罠
- 1段階. 欺瞞的なMVP: わずか数日で完成したように見えるデモが出てくる。しかし、すぐに基本的なミスをするようになる
- 2段階. ±0: これを改善しようと努力するが、ますます複雑になるばかりで予測不可能になる。企業の90%の大半がこの段階にいる
- 3段階. 科学: この時点で評価用テストやオブザーバビリティツールなどが必要だと気づき、作り始める
- 4段階. 実際に動く: ついに継続的なモニタリング、包括的な評価用テストセット、迅速な分析ツールを備える
- これらすべては簡単でも単純でもなく、難しい仕事だ
- 多くの企業は混沌としたMVP段階にとどまり、リリースしたAI機能の性能がどうなっているのかすら理解していない
- 「必要なのはただXだけだ」と言ってAI製品を売るのは、現実をあまりにも単純化している
- 誰かがマルチプロバイダーAI戦略を構築していると言ったら、どのように測定し評価しているのかを尋ねるべきだ
まだコメントはありません。