Aleph - 大規模ドキュメントの索引作成と横断検索ツール
(github.com)-
組織犯罪と汚職の専門調査を行うOCCRPが開発した、調査報道向けのデータ調査・分析ツール
-
構造化データ(DB)/非構造化データ(PDF、XLS、DOCなど)を統合して横断検索
-
データの区画化とアクセス管理機能。多国籍チーム間で柔軟な共有を支援
-
数百の公開データソースから継続的にクローリング
-
視覚的な調査分析を提供
-
データのインポートに対応
-
HTML/XML から PDF、RTF、Epub まで、ほとんどのオフィス文書(Doc、PPT など)
-
XLS/CSV および DBF、SQLite、Access などの表形式フォーマット
-
RFC822 MIME メール、Outlook PST/OLM のようなメールボックス、Mbox、Vcard
-
Zip、Rar、Tar、7Zip、Gzip
-
JPEG、PNG、GIF、TIFF、SVG は Tesseract 4 または Google Vision API で OCR を行い、テキストを抽出
1件のコメント
開発元の OCCRP はこのような組織です。
"組織犯罪と汚職を専門とする調査報道メディア、OCCRP" https://newstapa.org/article/_DNLi
https://aleph.occrp.org/ で実際のデータを使って試すことができます。
OpenOil が作成したトレーラー動画が、Aleph についてわかりやすく説明してくれます。
( OpenOil は、世界中のガス、石油、石炭などの天然資源を管理するためのオープンデータフレームワークを作る会社です。 )
https://www.youtube.com/watch?v=bg96HcR_2Jc
"汚職" を専門とする調査組織が作ったものなので、基本データモデルは "Follow the Money" です。
資金がどの会社/どの人物の間を流れているのかをうまく追跡します。
そのため、標準でサポートしているデータセットのエンティティ種別は次のとおりです。