LAION-400M - 4億件の画像・テキストペアデータセット

(laion.ai)

12 ポイント投稿者 xguru 2021-09-15 | まだコメントはありません。 | WhatsAppで共有

→ 2014〜2021年のWebページクローリングデータをダンプ

→ 画像/テキスト間の類似度0.3以下を除外した後、手作業で検証

→ 50GBのURL+キャプションメタデータParquetファイル

→ 10TBのフル版WebDataset。256x256の画像/キャプション/メタデータですぐに学習に利用可能

→ 1TB、4億件のテキスト/画像CLIP埋め込み。KNNインデックスの再構築に有用

→ データセット検索を容易にする2つの4GB KNNインデックス

関連記事