AutoRAG: 自動で最適なRAGパイプラインを見つける自動化ツール
(github.com/Marker-Inc-Korea)- AutoRAGは、MLを自動で最適化するAutoMLのように、RAGも自動で最適化してくれる
- 数千件の文書(PDF、Wordなど)の中から検索を通じて、LLMが知らない知識についても回答できるようにするRAG(Retrieval-Augmented Generation)が大きな注目を集めている。
- 実際の文書で高性能なRAGパイプラインを構築するのは難しい。
- RAGはデータと目的に応じて適した組み合わせがすべて異なり、最適な組み合わせを見つけるには多くの実験と評価を繰り返す必要がある。
- RAGパイプラインの組み合わせは、AutoRAGが現在サポートしている12個のモジュールだけでも960通りに及ぶほど多様。
(埋め込みおよび言語モデルは組み合わせから除外) - AutoRAGは、MLを自動で最適化するAutoMLのように、RAGを自動で最適化してくれる。
- YAMLファイルを簡単に修正するだけで利用できる。
- 見つけた最適なRAGをそのままfastAPIサーバーとして実行して利用できる。
RAGを学び、さまざまなパイプラインを作って性能を試しながら感じた最大の難しさは、「データごとに最適化すること」でした。
学術界では毎日のように新しいRAGモジュールやパイプラインが提案されていますが、苦労して持ち込み実データに適用してみると、性能がまったく向上しないことも少なくありませんでした。また、PDFのような文書から評価用データセットを構築し、複数のモジュールで実験・評価する過程は煩雑で大変でした。
多くのRAG開発チームが同じ難しさを抱えているだろうと考え、私たちのチームはAutoRAGをオープンソースとして公開しました。GitHubと私たちのDocsを見ながら進めれば、簡単に利用できるはずです。
すでにRAGを熱心に構築してきた方にも、これから新たにRAGに入門する方にも、満足して使っていただけるはずです!
まだコメントはありません。