IBMとNASA、科学知識へのアクセシビリティ向上に向けた言語モデルを開発

(research.ibm.com)

4 ポイント投稿者 GN⁺ 2024-03-15 | まだコメントはありません。 | WhatsAppで共有

IBMとNASA、科学知識へのアクセシビリティ向上に向けた言語モデルを構築

IBMとNASAは、科学文献を通じて効率的な言語モデルを作る新たな協業を開始した。
Transformerアーキテクチャをベースにしたこれらのモデルは、分類、エンティティ抽出、質問応答、情報検索などさまざまなアプリケーションで利用できる。
幅広い分野で高い性能を達成し、迅速に応答でき、科学および学術コミュニティの利益のためにHugging Faceでオープンソースとして公開される。

Transformerベースの言語モデル

BERT、RoBERTa、IBMのSlateおよびGraniteモデル群を含むTransformerベースの言語モデルは、自然言語理解タスクにおいて非常に重要である。
これらのモデルは、言語の働きに対する統計的理解に基づいており、隠された単語を復元して文を再構成するマスク言語モデリングのタスクを通じて学習する。
単語をモデルが利用できる単位に分解するトークナイザーは、膨大な語彙学習に重要な役割を果たす。

科学分野に特化したトークナイザーと訓練データ

IBMとNASAは、天体物理学、惑星科学、地球科学、太陽物理学、生物科学および物理科学データのコーパスにおける600億トークンでモデルを訓練した。
一般的なトークナイザーとは異なり、開発された特化型トークナイザーは、"axes" や "polycrystalline" のような科学用語を認識できる。
モデルが処理した50,000個のトークンのうち半分以上が、Hugging FaceのRoBERTaモデルと比較して固有のものだった。

性能向上

ドメイン特化の語彙で学習したIBM-NASAモデルは、生物医学タスクを評価する人気のBLURBベンチマークで、オープンなRoBERTaモデルを5%上回った。
内部の科学質問応答ベンチマークでF1スコアが2.4%向上し、内部の地球科学エンティティ認識テストでは5.5%の向上を示した。

エンコーダモデルと情報検索

訓練済みのエンコーダモデルは、多くの非生成型言語タスク向けにファインチューニングでき、文書検索のための情報量の豊富な埋め込みを生成できる。

モデルの成功した成果

これらのモデルは約2億6,800万件のテキスト対を用いて、NASAがキュレーションした約400問のテストセットで関連する一節を検索する際に優れた性能を示した。
特化した学習データ、カスタムトークナイザー、学習手法によって、モデルに大幅な改善がもたらされた。

Hugging Faceでのオープンソース公開

IBMとNASAの透明なAIへの取り組みに従い、両モデルはHugging Faceで利用できる。
エンコーダモデルは宇宙分野のアプリケーション向けにさらにファインチューニングでき、検索モデルはRAGのための情報検索アプリケーションに利用できる。

GN⁺の見解

この協業は、科学知識へのアクセシビリティ向上に大きく役立つとみられる。特に、科学分野の専門用語を理解して処理できる言語モデルの開発は、研究者にとって非常に有用だろう。
モデルがオープンソースで提供されることで、さまざまな研究者や開発者が自由に利用・改善できる機会が生まれ、AI研究の民主化に貢献しうる。
ただし、こうした高度なモデルを効果的に活用するには、十分な計算資源とAIモデリングに関する専門知識が必要になる可能性がある。これは一部の研究者や機関にとって参入障壁となりうる。
この技術を導入する際に考慮すべき点として、モデルの複雑さや訓練に必要なデータ量、それを処理できるハードウェア性能がある。このモデルを選択することで、科学文献のより深い理解とより高速な情報検索という利点を得られる一方で、コストと資源の投入が必要になる。

まだコメントはありません。

まだコメントはありません。