Morphik - オープンソースのAIネイティブ知識ベース

xguru · 2025-05-29T09:46:28+09:00

画像、PDF、動画などのマルチモーダルデータを統合検索・管理できるようにするオープンソースツール従来のRAG方式よりも技術的・視覚的な文書の処理に最適化 ColPali 埋め込みを活用してページ全体を画像のように処理し、レイアウト・タイポグラフィ・視覚的コンテキストまで理解するセマンティック検索機能を提供複数文書間でエンティティを接続できるドメイン特化型ナレッジグラフを作成でき、カスタムまたは事前学習済みのシステムプロンプトを利用可能 PDF、画像、動画など多様な文書を単一APIで検索でき、MCP にも対応メタデータ抽出機能が高速で拡張性が高く、バウンディングボックス、分類などにも対応 Google Suite、Slack、Confluence などとのワークフロー統合が可能文書ベース生成の速度を向上させる KVキャッシュベース生成（Cache-Augmented-Generation）機能も含む基本機能はMITライセンスでオープンソース提供されており無料で開始可能。一部の高度な機能は有料で ee ネームスペースとして提供主な概念と機能紹介マルチモーダル検索 (ColPali) 各PDFページを画像として処理し、単一のテキストトークン単位ではなくページ単位のマルチベクトル表現を生成画像、PDF、動画および視覚的構造（表、図式、書式など）についても意味を把握して検索可能単一エンドポイントによる統合マルチモーダルクエリ対応ナレッジグラフ (Knowledge Graphs) 1行のコードでドメイン特化型ナレッジグラフを生成可能事前構成済みプロンプトを利用でき、ユーザー定義も可能高速で拡張可能なメタデータ抽出 (Rules Processing) 文書内の bounding box、ラベル、分類情報などを自動抽出大容量文書も高速かつ安定して処理多様な統合機能 (Integrations) Google Workspace、Slack、Confluence などとの直接統合に対応キャッシュベース生成 (Cache-Augmented-Generation) 文書ごとに KVキャッシュを生成して生成速度を向上繰り返しクエリが多い環境で有用

(github.com/morphik-org)

20 ポイント投稿者 xguru 2025-05-29 | 2件のコメント | WhatsAppで共有

画像、PDF、動画などの マルチモーダルデータを統合検索・管理 できるようにするオープンソースツール
- 従来のRAG方式よりも 技術的・視覚的な文書 の処理に最適化
ColPali 埋め込みを活用してページ全体を画像のように処理し、レイアウト・タイポグラフィ・視覚的コンテキストまで理解する セマンティック検索機能 を提供
複数文書間でエンティティを接続できる ドメイン特化型ナレッジグラフ を作成でき、カスタムまたは事前学習済みのシステムプロンプトを利用可能
PDF、画像、動画など多様な文書を 単一APIで検索 でき、MCP にも対応
メタデータ抽出機能 が高速で拡張性が高く、バウンディングボックス、分類などにも対応
Google Suite、Slack、Confluence などとの ワークフロー統合 が可能
文書ベース生成の速度を向上させる KVキャッシュベース生成（Cache-Augmented-Generation） 機能も含む
基本機能はMITライセンスでオープンソース提供 されており無料で開始可能。一部の高度な機能は有料で ee ネームスペースとして提供

主な概念と機能紹介

マルチモーダル検索 (ColPali)
- 各PDFページを画像として処理し、単一のテキストトークン単位ではなくページ単位のマルチベクトル表現を生成
- 画像、PDF、動画および視覚的構造（表、図式、書式など）についても意味を把握して検索可能
- 単一エンドポイントによる 統合マルチモーダルクエリ対応
ナレッジグラフ (Knowledge Graphs)
- 1行のコードで ドメイン特化型ナレッジグラフ を生成可能
- 事前構成済みプロンプトを利用でき、ユーザー定義も可能
高速で拡張可能なメタデータ抽出 (Rules Processing)
- 文書内の bounding box、ラベル、分類情報 などを自動抽出
- 大容量文書も高速かつ安定して処理
多様な統合機能 (Integrations)
- Google Workspace、Slack、Confluence などとの直接統合に対応
キャッシュベース生成 (Cache-Augmented-Generation)
- 文書ごとに KVキャッシュを生成 して生成速度を向上
- 繰り返しクエリが多い環境で有用

2件のコメント

blizard4479 2025-05-29

これを数か月前に使おうと思ってテストしてみたのですが、思った以上にGPUリソースが多く必要で、速度もかなり落ちるので、小規模な会社で導入するには厳しかったです。A10 GPUを2枚使っても検索に30秒から1分ほどかかって、いやはや、、

2025-05-29

[このコメントは非表示になっています。]

Morphik - オープンソースのAIネイティブ知識ベース

主な概念と機能紹介

マルチモーダル検索 (ColPali)

ナレッジグラフ (Knowledge Graphs)

高速で拡張可能なメタデータ抽出 (Rules Processing)

多様な統合機能 (Integrations)

キャッシュベース生成 (Cache-Augmented-Generation)

関連記事

2件のコメント