DeepEval - LLMのためのユニットテスト
(github.com/mr-gpt)- 基本理念は「Pytest for LLM」
- 本番移行に向けて、LLMパイプラインに対するオフライン評価を実行するPythonらしい方法を提供
- Pythonのユニットテストを書くように、LLMアプリケーション(RAGなど)向けのテストを作成可能
assert_llm_outputを通じて、entailment / exact / bertscore などのメトリクスで回答を評価- カスタムメトリクスの設定や既存メトリクスの修正も可能
まだコメントはありません。