12 ポイント 投稿者 xguru 2021-09-15 | まだコメントはありません。 | WhatsAppで共有
  • 無料で公開されているものの中で世界最大の画像データセット

→ 2014〜2021年のWebページクローリングデータをダンプ

  • すべての画像/テキストはOpenAIのCLIPでフィルタリング済み

→ 画像/テキスト間の類似度0.3以下を除外した後、手作業で検証

  • データセット構成

→ 50GBのURL+キャプションメタデータParquetファイル

→ 10TBのフル版WebDataset。256x256の画像/キャプション/メタデータですぐに学習に利用可能

→ 1TB、4億件のテキスト/画像CLIP埋め込み。KNNインデックスの再構築に有用

→ データセット検索を容易にする2つの4GB KNNインデックス

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

まだコメントはありません。

まだコメントはありません。