- 画像、PDF、動画などの マルチモーダルデータを統合検索・管理 できるようにするオープンソースツール
- 従来のRAG方式よりも 技術的・視覚的な文書 の処理に最適化
- ColPali 埋め込みを活用してページ全体を画像のように処理し、レイアウト・タイポグラフィ・視覚的コンテキストまで理解する セマンティック検索機能 を提供
- 複数文書間でエンティティを接続できる ドメイン特化型ナレッジグラフ を作成でき、カスタムまたは事前学習済みのシステムプロンプトを利用可能
- PDF、画像、動画など多様な文書を 単一APIで検索 でき、MCP にも対応
- メタデータ抽出機能 が高速で拡張性が高く、バウンディングボックス、分類などにも対応
- Google Suite、Slack、Confluence などとの ワークフロー統合 が可能
- 文書ベース生成の速度を向上させる KVキャッシュベース生成(Cache-Augmented-Generation) 機能も含む
- 基本機能はMITライセンスでオープンソース提供 されており無料で開始可能。一部の高度な機能は有料で
ee ネームスペースとして提供
主な概念と機能紹介
-
- 各PDFページを画像として処理し、単一のテキストトークン単位ではなくページ単位のマルチベクトル表現を生成
- 画像、PDF、動画および視覚的構造(表、図式、書式など)についても意味を把握して検索可能
- 単一エンドポイントによる 統合マルチモーダルクエリ対応
-
- 1行のコードで ドメイン特化型ナレッジグラフ を生成可能
- 事前構成済みプロンプトを利用でき、ユーザー定義も可能
-
- 文書内の bounding box、ラベル、分類情報 などを自動抽出
- 大容量文書も高速かつ安定して処理
-
- Google Workspace、Slack、Confluence などとの直接統合に対応
-
- 文書ごとに KVキャッシュを生成 して生成速度を向上
- 繰り返しクエリが多い環境で有用
2件のコメント
これを数か月前に使おうと思ってテストしてみたのですが、思った以上にGPUリソースが多く必要で、速度もかなり落ちるので、小規模な会社で導入するには厳しかったです。A10 GPUを2枚使っても検索に30秒から1分ほどかかって、いやはや、、