7 ポイント 投稿者 xguru 2020-03-02 | 1件のコメント | WhatsAppで共有
  • 組織犯罪と汚職の専門調査を行うOCCRPが開発した、調査報道向けのデータ調査・分析ツール

  • 構造化データ(DB)/非構造化データ(PDF、XLS、DOCなど)を統合して横断検索

  • データの区画化とアクセス管理機能。多国籍チーム間で柔軟な共有を支援

  • 数百の公開データソースから継続的にクローリング

  • 視覚的な調査分析を提供

  • データのインポートに対応

  • HTML/XML から PDF、RTF、Epub まで、ほとんどのオフィス文書(Doc、PPT など)

  • XLS/CSV および DBF、SQLite、Access などの表形式フォーマット

  • RFC822 MIME メール、Outlook PST/OLM のようなメールボックス、Mbox、Vcard

  • Zip、Rar、Tar、7Zip、Gzip

  • JPEG、PNG、GIF、TIFF、SVG は Tesseract 4 または Google Vision API で OCR を行い、テキストを抽出

1件のコメント

 
xguru 2020-03-02

開発元の OCCRP はこのような組織です。

"組織犯罪と汚職を専門とする調査報道メディア、OCCRP" https://newstapa.org/article/_DNLi

https://aleph.occrp.org/ で実際のデータを使って試すことができます。

OpenOil が作成したトレーラー動画が、Aleph についてわかりやすく説明してくれます。

( OpenOil は、世界中のガス、石油、石炭などの天然資源を管理するためのオープンデータフレームワークを作る会社です。 )

https://www.youtube.com/watch?v=bg96HcR_2Jc

"汚職" を専門とする調査組織が作ったものなので、基本データモデルは "Follow the Money" です。

資金がどの会社/どの人物の間を流れているのかをうまく追跡します。

そのため、標準でサポートしているデータセットのエンティティ種別は次のとおりです。

  • Airplane, Assessment, Asset, Bank Account, Company, Contract, Court case, Customs Declaration, Land, Legal Entity