LANISTR: 構造化データと非構造化データから学習するための新しいフレームワーク
(research.google)• LANISTRは、非構造化データ(画像、テキスト)および構造化データ(時系列、表)を取り込み、アラインメントと融合を行い、最終的に予測を生成することで、マルチモーダル学習を可能にする新しいフレームワークである。
• 特に、限られた規模のデータセットで訓練する際の過学習や不十分な汎化といった問題、そして2つ以上のモダリティを持つマルチモーダルデータで一部のモダリティが欠損している問題を解決する。
• LANISTRのアーキテクチャは、モダリティごとのエンコーダと、融合メカニズムの役割を果たすマルチモーダルなエンコーダ・デコーダモジュールで構成され、クロスアテンションを用いてクロスモーダルな関係を捉える。
• LANISTR手法の中核は、ユニモーダルおよびマルチモーダルの両レベルに適用されるマスキングベースの訓練に根ざしており、2種類の事前学習目標、すなわちユニモーダルなマスキング目標と、類似性ベースのマルチモーダルなマスキング損失がある。
• LANISTRは、いくつかの困難なタスクで最先端の結果を達成し、MIMIC-IV医療データセットとAmazonレビューのデータの両方で競合ベースラインを上回る。
• ラベルなしデータとラベル付きデータを併用して構造化データと非構造化データを学習することの重要性、そしてすべてのモダリティをそのまま積極的に取り込み、教師なし事前学習の間に大量のラベルなしデータを活用し、欠損モダリティをシームレスに処理できる能力を示している。
• LANISTRは、医療診断や小売需要予測を含むさまざまな分野で潜在的な応用を持っている。
まだコメントはありません。