COYO-700M - Kakao Brainが公開した7億4千万件の画像・テキストペアデータセット
(github.com/kakaobrain)- 約7億4千万件の画像・テキストペアと、そのほか多くの属性を含む大規模学習データセット
- HTML文書内の画像と
alt属性(HTMLで画像を画面に描画できないときに表示される文字列)を収集 - ほかの類似データセットを補完し、大規模基盤モデルの学習に使われることが期待される
- 「COYO」は、先に公開された超大規模AI画像生成モデル「RQ-Transformer」とAIアーティスト「Karlo」の開発に適用されている
- データ収集プロセスの詳細は、今後公開される論文で確認可能
1件のコメント
COYO-700M: 7億4,000万件の画像・テキストペアデータセット - Kakao Brainが公開
Kakao Brain、世界最高水準のデータセット「COYO」を公開