EuroLLM：欧州で開発され、EUの24の公用語をサポートするLLM

(eurollm.io)

3 ポイント投稿者 GN⁺ 2025-10-29 | 1件のコメント | WhatsAppで共有

EuroLLMは、欧州の研究機関が共同開発したEUの24の公用語に対応する大規模言語モデル（LLM）であり、欧州のAI主権と技術的自立を目指している
90億パラメータのモデルで、35言語・4兆超のトークンで学習されており、質問応答、要約、翻訳などの言語タスクに強みを持つ
EuroLLM 9B Baseはファインチューニング用として公開されており、EuroLLM 9B Instructは対話型の指示実行機能を備えたバージョンとしてHugging Faceで利用できる
このプロジェクトには、Unbabel、University of Edinburgh、Técnico Lisboa、Naver Labs Europeなど欧州の主要機関が参加し、MareNostrum 5スーパーコンピュータで学習が実施された
マルチモーダル拡張（画像・音声）と完全なオープンソース公開方針を予告しており、欧州におけるAIイノベーション・エコシステムの中核インフラとなることを目指している

EuroLLMの概要

EuroLLMは欧州で開発された**大規模言語モデル（Local LLM）**で、EUの24すべての公用語をサポートする
- 言語の壁なく欧州市民・企業・研究者が利用できる公共インフラ型AIモデルとして設計されている
欧州連合のHorizon Europe、European Research Council、EuroHPCの支援を受けて開発された
- MareNostrum 5スーパーコンピュータで学習を実施した

技術的特徴

EuroLLM 9B：90億パラメータ規模で、35言語・4兆トークンのデータで学習
- Baseモデルはユーザーによるファインチューニング向け、Instructモデルは対話型の指示実行機能を備える
主な機能:
- 質問応答、要約、翻訳など、多言語自然言語処理性能に最適化
- マルチモーダル拡張予定 — 今後、画像と音声の理解機能を追加予定
- オープンソース配布により、研究者、機関、一般市民が自由に活用可能

参加機関と協力ネットワーク

参加機関:
- Unbabel、Instituto Superior Técnico、University of Edinburgh、Université Paris-Saclay、Aveni.ai、Sorbonne University、Naver Labs Europe、University of Amsterdam
主な研究者:
- André Martins（Unbabel、リスボン工科大学教授）— 機械学習および自然言語処理の専門家
- Alexandra Birch（Aveni.ai、エディンバラ大学教授）— 多言語翻訳と倫理的AI研究をリード
- Pierre Colombo（Université Paris-Saclay）— AI安全性と法務AI応用を研究

ミッションとビジョン

EuroLLMの目標は、欧州のAI主権の確保と多言語技術の発展促進にある
- 欧州内で独自に開発されたLLMを通じて、**イノベーションの好循環（flywheel for innovation）**を生み出す
- 研究者や企業が欧州製AIモデルを基盤として新しいサービスや研究を拡張できるよう支援する
欧州が言語的多様性に基づく技術リーダーシップを強化し、
グローバルAIエコシステムにおける自立したイノベーションモデルを構築することを志向している

1件のコメント

GN⁺ 2025-10-29

Hacker Newsの意見

欧州連合の公用語は全部で24言語。ブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイルランド語、イタリア語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語である
マルタ語は唯一のアフロ・アジア語族の言語で、ハンガリー語・フィンランド語・エストニア語はウラル語族に属する。残りはインド・ヨーロッパ語族で、ギリシャ語はヘレニック語派、アイルランド語はケルト語派である
- マルタ語は正確には**セム語派(Semitic)**の言語である。Wikipedia参照
- 明日のオランダ総選挙で、2つの政党がフリジア語を公用語一覧に追加しようと提案している。関連記事
  モデルの再学習が必要になるかもしれない
- 自分はマルタ語を読んで書いて話せる。言語について気になることがあれば何でも聞いてほしい
- リトアニア語とラトビア語はバルト語派である。スラヴ語派とは関係ない
- 論文を見ると、このモデルはこの24言語だけに限定されていない。アラビア語、カタルーニャ語、中国語、ヒンディー語、日本語、韓国語、ノルウェー語、ロシア語、トルコ語、ウクライナ語なども含まれている。論文PDF
  学習データの出所を細かく扱っている点が、この研究の主な貢献に見える
欧州の政策立案者たちは、技術集約型産業をどう育成すべきかをまったく分かっていないように見える。『勝者を選ぶ』型の補助金方式は失敗が目に見えている。欧州のスーパーコンピュータへのアクセスに関する話も興味深い。関連ツイート
- EUの補助金手続きが面白いわけではないが、Levelsはやや自信過剰な気がする。インフルエンサーとしての収益化はうまいが、国の支援するスーパーコンピュータで広告ベースのブラウザゲームを動かすのは適切ではないと思う
- 本当に重要なのは、欧州がAIスタートアップに優しい環境を作ることだ。規制を緩和し、税制優遇を与えるのが先である。
  ただ、実際に欧州企業が直面している最大の制約は規制ではなく資本へのアクセスである。
  中国はむしろより強い規制があってもソフトウェア産業が繁栄してきた。韓国も同様に保護主義の恩恵を受けてきた。
  欧州が学ぶべきなのは、より多くの技術保護主義である。Pieter Levelsは結局インフルエンサーであって、真剣な起業家ではない
- 『勝者を選ぶ戦略』が実際にどんな結果をもたらすのか気になる
- こうした政策の目的が本当に『勝者を選ぶこと』なのか、それとも起業家の能力強化や経済刺激なのか疑問である。
  米国にはFAANG出身の起業家が多いが、欧州にはそうしたエコシステムが不足している。
  スーパーコンピュータ計画が失敗しても、副次的な経済効果が狙いなのかもしれない
- 人々は彼に甘すぎる。『levelsio』が誰なのか知らない人も多いだろうに、なぜ皆が彼を知っているふりをしているのか不思議だ
タイトルから「(2024)」が抜けている。9Bモデルは昨年12月に公開された。公式ページ
EuroLLMチームには、Unbabel、Instituto Tecnico Lisbon、University of Edinburgh、Naver Labsなど欧州の主要機関が参加している。
欧州はEuroHPC JUを通じて公共スーパーコンピュータのネットワークを運営しており、アクセス権を得るとすぐにモデル開発を始めたという。公式ストーリー
物理シミュレーション用の計算資源を再利用した形である
すでに大半のフロンティアモデルは多言語対応なのではないか。言語ごとの対応をわざわざ入れる必要はないと思う
- しかしこのモデルの核心は、EU公認データで学習されていることだ
- 単に言語の例があるだけでなく、各言語のデータ比率が重要である。英語データが圧倒的に多いため、他言語の性能が落ちる
- 学習方法が異なる。日本語ではトークナイゼーションの問題で性能が低くなることが多い
- 英語以外の言語では、不自然に翻訳されたような文体が多い。フランス語ユーザーは非文をよく指摘する
- 欧州各国政府は膨大なデジタル資料と文化データを保有している。こうした文化的差異がモデルの価値観にも影響を与えうる
実際に使われたコーパスが公開されていないのは残念だ。アイルランド語のような少数言語は、ほとんどが法文書ベースだろうし、口語データはほとんどないはずだ。
言語ごとの評価をネイティブ話者基準でやってみると面白そうだ。
LLMはこうした消滅危機言語に良い影響を与える可能性があるが、その前にリスクも存在する（例: スコットランド・ゲール語Wikipediaの事例）。
それでも全体としては良い試みだと思う
EuroLLM-9Bは2024年12月公開のモデルで、MMLU-Pro基準では17.6%とランダムよりやや高い程度である。
他のEUモデルとの比較表はこちらを参照
なぜ米国と中国だけが優れたモデルを出しているのか疑問だ。フランスのMistral以外、欧州モデルはほとんどない。インド、日本、韓国も似たような状況である
- 驚くことではない。欧州は技術競争力で一貫して後れを取っている。
  人口は米国の1.3倍、GDPは75%だが、技術産業の規模は米国のごく一部にすぎない。
  米国の7大ビッグテック企業は、欧州の上位7社より20倍大きく、売上は10倍多い。参考リンク
- 欧州は資本へのアクセスが乏しく、市場が分断されている。
  そのためHorizonのような学術中心の資金に依存するが、こうした共同研究は製品化につながりにくい
- フロンティアモデルの学習には莫大な資本構造が必要である。米国と中国だけが数十億ドルを調達できる
- EUは900ページのAI法案を作って自画自賛していたが、中国はすでに2ページの法律を先に施行していた
- 実際のところ、こうしたモデルの商業的価値はまだ証明されていない。多くは政府契約や投資資金で動いている
Hugging FaceでEuroLLM-9Bモデルを受け取るには、連絡先提供への同意が必要らしい。こういう要求はよくあることなのだろうか
- 自分もいくつかのモデルで見たことがある。たとえば Llama 3.1-8B-Instruct も似た手続きがある
- はい、かなり一般的な手続きである
9Bモデルが注目されているのは興味深い。しかし、2か月前に公開されたTildeOpen-30Bモデル（19の欧州言語をサポート）はほとんど言及されていない。モデルページ
基本性能は低いが、ファインチューニングの潜在力が大きいオープンモデルである

EuroLLM：欧州で開発され、EUの24の公用語をサポートするLLM

EuroLLMの概要

技術的特徴

参加機関と協力ネットワーク

ミッションとビジョン

関連記事

1件のコメント

Hacker Newsの意見