- EuroLLMは、欧州の研究機関が共同開発したEUの24の公用語に対応する大規模言語モデル(LLM)であり、欧州のAI主権と技術的自立を目指している
- 90億パラメータのモデルで、35言語・4兆超のトークンで学習されており、質問応答、要約、翻訳などの言語タスクに強みを持つ
- EuroLLM 9B Baseはファインチューニング用として公開されており、EuroLLM 9B Instructは対話型の指示実行機能を備えたバージョンとしてHugging Faceで利用できる
- このプロジェクトには、Unbabel、University of Edinburgh、Técnico Lisboa、Naver Labs Europeなど欧州の主要機関が参加し、MareNostrum 5スーパーコンピュータで学習が実施された
- マルチモーダル拡張(画像・音声)と完全なオープンソース公開方針を予告しており、欧州におけるAIイノベーション・エコシステムの中核インフラとなることを目指している
EuroLLMの概要
- EuroLLMは欧州で開発された**大規模言語モデル(Local LLM)**で、EUの24すべての公用語をサポートする
- 言語の壁なく欧州市民・企業・研究者が利用できる公共インフラ型AIモデルとして設計されている
- 欧州連合のHorizon Europe、European Research Council、EuroHPCの支援を受けて開発された
- MareNostrum 5スーパーコンピュータで学習を実施した
技術的特徴
- EuroLLM 9B:90億パラメータ規模で、35言語・4兆トークンのデータで学習
- Baseモデルはユーザーによるファインチューニング向け、Instructモデルは対話型の指示実行機能を備える
- 主な機能:
- 質問応答、要約、翻訳など、多言語自然言語処理性能に最適化
- マルチモーダル拡張予定 — 今後、画像と音声の理解機能を追加予定
- オープンソース配布により、研究者、機関、一般市民が自由に活用可能
参加機関と協力ネットワーク
- 参加機関:
- Unbabel、Instituto Superior Técnico、University of Edinburgh、Université Paris-Saclay、Aveni.ai、Sorbonne University、Naver Labs Europe、University of Amsterdam
- 主な研究者:
- André Martins(Unbabel、リスボン工科大学教授)— 機械学習および自然言語処理の専門家
- Alexandra Birch(Aveni.ai、エディンバラ大学教授)— 多言語翻訳と倫理的AI研究をリード
- Pierre Colombo(Université Paris-Saclay)— AI安全性と法務AI応用を研究
ミッションとビジョン
- EuroLLMの目標は、欧州のAI主権の確保と多言語技術の発展促進にある
- 欧州内で独自に開発されたLLMを通じて、**イノベーションの好循環(flywheel for innovation)**を生み出す
- 研究者や企業が欧州製AIモデルを基盤として新しいサービスや研究を拡張できるよう支援する
- 欧州が言語的多様性に基づく技術リーダーシップを強化し、
グローバルAIエコシステムにおける自立したイノベーションモデルを構築することを志向している
1件のコメント
Hacker Newsの意見
欧州連合の公用語は全部で24言語。ブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイルランド語、イタリア語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語である
マルタ語は唯一のアフロ・アジア語族の言語で、ハンガリー語・フィンランド語・エストニア語はウラル語族に属する。残りはインド・ヨーロッパ語族で、ギリシャ語はヘレニック語派、アイルランド語はケルト語派である
モデルの再学習が必要になるかもしれない
学習データの出所を細かく扱っている点が、この研究の主な貢献に見える
欧州の政策立案者たちは、技術集約型産業をどう育成すべきかをまったく分かっていないように見える。『勝者を選ぶ』型の補助金方式は失敗が目に見えている。欧州のスーパーコンピュータへのアクセスに関する話も興味深い。関連ツイート
ただ、実際に欧州企業が直面している最大の制約は規制ではなく資本へのアクセスである。
中国はむしろより強い規制があってもソフトウェア産業が繁栄してきた。韓国も同様に保護主義の恩恵を受けてきた。
欧州が学ぶべきなのは、より多くの技術保護主義である。Pieter Levelsは結局インフルエンサーであって、真剣な起業家ではない
米国にはFAANG出身の起業家が多いが、欧州にはそうしたエコシステムが不足している。
スーパーコンピュータ計画が失敗しても、副次的な経済効果が狙いなのかもしれない
タイトルから「(2024)」が抜けている。9Bモデルは昨年12月に公開された。公式ページ
EuroLLMチームには、Unbabel、Instituto Tecnico Lisbon、University of Edinburgh、Naver Labsなど欧州の主要機関が参加している。
欧州はEuroHPC JUを通じて公共スーパーコンピュータのネットワークを運営しており、アクセス権を得るとすぐにモデル開発を始めたという。公式ストーリー
物理シミュレーション用の計算資源を再利用した形である
すでに大半のフロンティアモデルは多言語対応なのではないか。言語ごとの対応をわざわざ入れる必要はないと思う
実際に使われたコーパスが公開されていないのは残念だ。アイルランド語のような少数言語は、ほとんどが法文書ベースだろうし、口語データはほとんどないはずだ。
言語ごとの評価をネイティブ話者基準でやってみると面白そうだ。
LLMはこうした消滅危機言語に良い影響を与える可能性があるが、その前にリスクも存在する(例: スコットランド・ゲール語Wikipediaの事例)。
それでも全体としては良い試みだと思う
EuroLLM-9Bは2024年12月公開のモデルで、MMLU-Pro基準では17.6%とランダムよりやや高い程度である。
他のEUモデルとの比較表はこちらを参照
なぜ米国と中国だけが優れたモデルを出しているのか疑問だ。フランスのMistral以外、欧州モデルはほとんどない。インド、日本、韓国も似たような状況である
人口は米国の1.3倍、GDPは75%だが、技術産業の規模は米国のごく一部にすぎない。
米国の7大ビッグテック企業は、欧州の上位7社より20倍大きく、売上は10倍多い。参考リンク
そのためHorizonのような学術中心の資金に依存するが、こうした共同研究は製品化につながりにくい
Hugging FaceでEuroLLM-9Bモデルを受け取るには、連絡先提供への同意が必要らしい。こういう要求はよくあることなのだろうか
9Bモデルが注目されているのは興味深い。しかし、2か月前に公開されたTildeOpen-30Bモデル(19の欧州言語をサポート)はほとんど言及されていない。モデルページ
基本性能は低いが、ファインチューニングの潜在力が大きいオープンモデルである