20 ポイント 投稿者 xguru 2025-05-29 | 2件のコメント | WhatsAppで共有
  • 画像、PDF、動画などの マルチモーダルデータを統合検索・管理 できるようにするオープンソースツール
    • 従来のRAG方式よりも 技術的・視覚的な文書 の処理に最適化
  • ColPali 埋め込みを活用してページ全体を画像のように処理し、レイアウト・タイポグラフィ・視覚的コンテキストまで理解する セマンティック検索機能 を提供
  • 複数文書間でエンティティを接続できる ドメイン特化型ナレッジグラフ を作成でき、カスタムまたは事前学習済みのシステムプロンプトを利用可能
  • PDF、画像、動画など多様な文書を 単一APIで検索 でき、MCP にも対応
  • メタデータ抽出機能 が高速で拡張性が高く、バウンディングボックス、分類などにも対応
  • Google Suite、Slack、Confluence などとの ワークフロー統合 が可能
  • 文書ベース生成の速度を向上させる KVキャッシュベース生成(Cache-Augmented-Generation) 機能も含む
  • 基本機能はMITライセンスでオープンソース提供 されており無料で開始可能。一部の高度な機能は有料で ee ネームスペースとして提供

主な概念と機能紹介

  • マルチモーダル検索 (ColPali)

    • 各PDFページを画像として処理し、単一のテキストトークン単位ではなくページ単位のマルチベクトル表現を生成
    • 画像、PDF、動画および視覚的構造(表、図式、書式など)についても意味を把握して検索可能
    • 単一エンドポイントによる 統合マルチモーダルクエリ対応
  • ナレッジグラフ (Knowledge Graphs)

    • 1行のコードで ドメイン特化型ナレッジグラフ を生成可能
    • 事前構成済みプロンプトを利用でき、ユーザー定義も可能
  • 高速で拡張可能なメタデータ抽出 (Rules Processing)

    • 文書内の bounding box、ラベル、分類情報 などを自動抽出
    • 大容量文書も高速かつ安定して処理
  • 多様な統合機能 (Integrations)

    • Google Workspace、Slack、Confluence などとの直接統合に対応
  • キャッシュベース生成 (Cache-Augmented-Generation)

    • 文書ごとに KVキャッシュを生成 して生成速度を向上
    • 繰り返しクエリが多い環境で有用

2件のコメント

 
blizard4479 2025-05-29

これを数か月前に使おうと思ってテストしてみたのですが、思った以上にGPUリソースが多く必要で、速度もかなり落ちるので、小規模な会社で導入するには厳しかったです。A10 GPUを2枚使っても検索に30秒から1分ほどかかって、いやはや、、

 
[このコメントは非表示になっています。]