マルチモーダルAIが画像生成以外にできること
(blog.naver.com)マルチモーダルAIは、画像生成以外にも未完成画像の補完、動画内の次の発話予測、テキスト+画像の連動検索、漫画翻訳、がん発症リスク予測、ヘイトスピーチの検出などを行える。
1.未完成画像の補完
- マイクロソフト・リサーチ・アジアと北京大学が開発したNüwaが関連機能を披露
- 未完成の画像を与えると、残りを描き足して完成させる
- スケッチを与えると、それに合った画像や動画を生成する
- 動画の次の場面を予測して提示する
2.動画内の次の発話予測
- Google Researchが開発したモデルは、動画の場面と話者の発話を書き起こしたテキストが与えられると、次の発話を予測する
- 動画とテキストは、話者の発話を予測するための「文脈」として使われる
3.テキスト+画像検索
- Googleが開発したMUMは、ユーザーが検索欄に登山靴の写真をアップロードし、「富士山を登るのにこの靴を使えるだろうか?」と入力すると、画像を理解し、それをユーザーの質問と結び付けて「登山靴として十分機能する」と伝えられる
- 推奨装備の一覧があるブログも提示できる
4.漫画翻訳
- 東京大学と日本の機械翻訳企業Mantraの研究チームが披露した「マルチモーダル状況認識翻訳フレームワーク」は、挿絵とセリフをあわせて考慮し、漫画を別の言語に翻訳できる
- 日本の漫画「manga」の画像から、場面、セリフの読み順、視覚情報などの文脈情報を抽出する
- その情報を使って、吹き出し内のセリフを日本語から英語に翻訳する
5.がん発症リスク予測
- ハーバード大学医学部ブリガム・アンド・ウィメンズ病院の研究チームが開発したマルチモーダルAIは、細胞組織の写真とテキストベースのゲノムデータを参照し、がん発症の可能性を予測できる
- 研究チームは、細胞組織の微細な写真とテキストベースのゲノムデータで個別のモデル2つを学習させた
- その後、2つのモデルを単一システムに統合し、「患者が複数タイプのがんにかかるリスクが高いか低いか」を予測する
6.特定の物体の「画像」を学習し、同じ物体の「3Dデータ」や「動画」を認識
- Metaが披露したOmnivoreは、カボチャの画像だけを学習したにもかかわらず、カボチャの3Dモデルも認識できる
- また、ヨットの画像だけを学習したにもかかわらず、ヨットの動画まで認識できる
7.ヘイトスピーチの検出
- マルチモーダルAIは、ソーシャルメディアに投稿された投稿について、画像とテキストの内容の両方を参照し、ヘイトスピーチを見つけるのに役立つ可能性がある
- ヘイトスピーチは、画像とテキストを組み合わせたミームの形を取ることもある
- Metaは「(AIが)『ミームが有害かどうか』を認識するには、ミーム画像とテキスト内容の両方を考慮しなければならない」と説明している
- 何もない砂漠の写真に「どれだけ多くの人があなたを愛しているか見てみろ」と書かれたミームは、微妙に攻撃的だ
- AIがヘイトスピーチを含むミームの実際の意味を見つけるには、ミームを全体的に分析する必要がある
- 画像とテキストを結び付け、それが一緒に現れたときの意味の変化の仕方を理解しなければならない
- マルチモーダルAIは、画像とテキストを同時に処理することで、この機能を発揮すると予想される
- Metaは、ヘイトスピーチを認識するためにソーシャルメディア投稿の内容を包括的に理解する自社の能力が、マルチモーダルAIへと発展すると見ている
- Metaは、マルチモーダルなヘイトスピーチを確認するシステムの開発に役立つデータセット「Hateful Memes」を構築し、共有している
まだコメントはありません。