LAION-400M - 4億件の画像・テキストペアデータセット
(laion.ai)- 無料で公開されているものの中で世界最大の画像データセット
→ 2014〜2021年のWebページクローリングデータをダンプ
- すべての画像/テキストはOpenAIのCLIPでフィルタリング済み
→ 画像/テキスト間の類似度0.3以下を除外した後、手作業で検証
- データセット構成
→ 50GBのURL+キャプションメタデータParquetファイル
→ 10TBのフル版WebDataset。256x256の画像/キャプション/メタデータですぐに学習に利用可能
→ 1TB、4億件のテキスト/画像CLIP埋め込み。KNNインデックスの再構築に有用
→ データセット検索を容易にする2つの4GB KNNインデックス
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
まだコメントはありません。