9 ポイント 投稿者 xguru 2020-10-14 | 1件のコメント | WhatsAppで共有
  • 大規模な組織は、社内向けのデータ検索およびメタデータエンジンを別途構築

→ Netflix(Metacat)、Lyft(Amundsen)、LinkedIn(DataHub)、Uber(Databook)

→ どのデータを誰が・いつ・検索・生成したかといったメタデータを検索し、再利用を容易にするプラットフォーム

  • Hive、Scuba、Cubrick、およびさまざまなダッシュボードやAIデータセットなどを統合

  • ソーシャルグラフ検索に使われる Unicorn を利用

  • spaCy を利用して自然言語クエリが可能: "InstagramのWAU(週間アクティブユーザー)は何人ですか?"

1件のコメント

 
xguru 2020-10-14

Nemo はオープンソースとしては公開されておらず、他社のツールはオープンソースとして公開されています。

Lyft - Amundsen https://github.com/amundsen-io/amundsen

Netflix - Metacat https://github.com/Netflix/metacat

LinkedIn - DataHub https://github.com/linkedin/datahub