COYO-700M - Kakao Brainが公開した7億4千万件の画像・テキストペアデータセット

xguru · 2022-09-01T09:15:05+09:00

約7億4千万件の画像・テキストペアと、そのほか多くの属性を含む大規模学習データセット HTML文書内の画像とalt属性（HTMLで画像を画面に描画できないときに表示される文字列）を収集ほかの類似データセットを補完し、大規模基盤モデルの学習に使われることが期待される「COYO」は、先に公開された超大規模AI画像生成モデル「RQ-Transformer」とAIアーティスト「Karlo」の開発に適用されているデータ収集プロセスの詳細は、今後公開される論文で確認可能

(github.com/kakaobrain)

8 ポイント投稿者 xguru 2022-09-01 | 1件のコメント | WhatsAppで共有

約7億4千万件の画像・テキストペアと、そのほか多くの属性を含む大規模学習データセット
HTML文書内の画像とalt属性（HTMLで画像を画面に描画できないときに表示される文字列）を収集
ほかの類似データセットを補完し、大規模基盤モデルの学習に使われることが期待される
「COYO」は、先に公開された超大規模AI画像生成モデル「RQ-Transformer」とAIアーティスト「Karlo」の開発に適用されている
データ収集プロセスの詳細は、今後公開される論文で確認可能

1件のコメント

xguru 2022-09-01

COYO-700M: 7億4,000万件の画像・テキストペアデータセット - Kakao Brainが公開
 Kakao Brain、世界最高水準のデータセット「COYO」を公開

COYO-700M - Kakao Brainが公開した7億4千万件の画像・テキストペアデータセット

関連記事

1件のコメント