- Meta AIが開発したOmnilingual Machine Translation (OMT) は、1,600以上の言語をサポートする初の機械翻訳システムで、従来のNLLBプロジェクトの200言語という限界を超えた
- 公開コーパス・逆翻訳・データマイニングを組み合わせ、低リソース言語や少数言語まで含む大規模多言語データセットを構築
- BLASER 3・OmniTOX・BOUQuET・Met-BOUQuETなど多様な品質・有害性評価ツールを統合し、信頼性の高い翻訳性能を測定
- LLaMA3ベースのdecoder-onlyモデルとencoder–decoder構造のOMT-NLLBを併用し、低計算環境でも高品質翻訳を実現
- 1,600言語全体で一貫した文生成とクロスリンガル転移の向上を達成し、グローバルな言語包摂の拡大における重要な前進と評価される
Omnilingual MTの概要
- Omnilingual Machine Translation (OMT) は、1,600以上の言語をサポートする初の機械翻訳システムで、Meta AIが開発
- 従来のNo Language Left Behind (NLLB) プロジェクトが200言語まで拡張した成果を土台に、はるかに多くの言語を網羅
- 既存の大規模言語モデル(LLM)ベースの翻訳は品質は高かったものの、言語範囲が限定的で、特に低リソース・少数言語の生成能力不足が課題として指摘されていた
- OMTはこの限界を克服するため、データ戦略、モデル構造、評価体系を全面的に拡張
データ戦略と言語カバレッジの拡大
- OMTは公開多言語コーパスと新規生成データセットを統合し、言語範囲を大幅に拡大
- MeDLEY bitext(手動で精製した並列データ)、逆翻訳(synthetic backtranslation)、データマイニング(mining) 手法を組み合わせ
- これにより、少数言語(long-tail languages) や多様なドメインおよび文体(register) まで包含
- このデータ戦略は、従来システムでは扱えなかった約7,000言語のうち相当数を表現可能にする基盤となる
評価体系と品質測定
- 信頼性と拡張性のため、標準指標とあわせて複数の評価ツールを組み合わせ
-
BLASER 3**: 参照文なしで品質を推定する**reference-free評価モデル
- OmniTOX: 翻訳結果の有害性(toxicity) を判定する分類器
- BOUQuET: 多様な言語群を含む大規模多言語評価データセットで、手作業で構築
- Met-BOUQuET: 大規模多言語品質推定のための拡張データセット
- これらのデータセットは、継続的に更新される公開リーダーボードとともに提供され、研究者が自由に活用できる
モデル構造と学習アプローチ
- OMTは2つの方法でLLMを翻訳向けに特化
-
OMT-LLaMA
- LLaMA3ベースのdecoder-onlyモデル
- 多言語継続事前学習(multilingual continual pretraining) と検索ベース翻訳(retrieval-augmented translation) により、推論時の適応性を強化
-
OMT-NLLB
- encoder–decoder構造で、OmniSONARという多言語アラインメント空間上に構築
- 非並列データ(non-parallel data) を活用できる学習手法を導入
- decoder-only事前学習データをencoder–decoder学習に統合可能
- 1B〜8Bパラメータモデルが70B LLM基準モデルと同等またはそれ以上の翻訳性能を達成し、低計算環境でも高品質翻訳が可能であることを実証
性能と言語生成能力
- 英語→1,600言語翻訳評価では、従来モデルは低リソース言語を理解できても、意味のある文生成には失敗することが多かった
- OMT-LLaMAモデルは、これらの言語に対する一貫した文生成(coherent generation) を大きく拡張
- クロスリンガル転移(cross-lingual transfer) 性能も向上し、1,600言語に対する理解(understanding)面の問題をほぼ解決
- ファインチューニング(finetuning) と検索拡張生成(RAG) により、特定の言語やドメインでさらに品質向上が可能
公開リソースと研究の拡張
- BOUQuETおよびMet-BOUQuETデータセットは無料公開されており、Omnilingualityに向けて継続的に拡張中
- 研究チームは低リソース言語のアクセシビリティ向上と多言語AI研究の基盤確立を目指している
- OMTは大規模な言語多様性を包含する初の実用的な翻訳システムであり、グローバルな言語包摂に向けた重要な前進と評価される
1件のコメント
Hacker Newsのコメント
Metaの翻訳品質は他のサービスと比べてかなり劣ると感じた
特にあまり知られていない言語ではさらにひどい
Google翻訳はデフォルトでも無難だが、LLMベースの翻訳は文脈理解や文化的ニュアンスの伝達がはるかに優れている
私はカンボジアに住んでいるので、クメール語の翻訳品質をよく比較している
私の経験では、Facebook翻訳はGoogleよりも長い文ではより自然だ
クメール語は文脈依存で冗長な言語なので、LLMは大いに役立ちそうだ
一方で、英語からクメール語への翻訳では形式的でロボットっぽい口調になると現地の人は言っていて、興味深い
多言語対応はLLMの最もすごい利点の一つだと思う
GoogleがなぜGeminiを内部で使わないのか気になるが、たぶんハルシネーションの問題が原因かもしれない
複数のLLMと翻訳APIを比較した定量テストを見てみたい
1600言語を翻訳できると言うが、英語の要約の最初の文で主語と動詞の一致すらできていない
NLLB(No Language Left Behind)プロジェクトを通じて200言語へ拡張された高品質翻訳を達成したと主張している
似たことをする会社を始めた — 6k.ai
低リソース言語のデータ収集に注力している
Common Crawl、finepdfs、finewebのようなデータセットを見ると、(1) 高品質なデータがほとんどなく、(2) 処理方法があまりに粗い
例えばfinepdfsはPDFページごとに単一言語として分類するが、実際には言語ペアのデータが多い
wikilangs.org、omneitylabs.com、関連ブログで資料を公開した
最大のボトルネックはテキスト収集ではなく言語識別の精度だ
Common CrawlやFinewebのようなデータセットでは言語の区別が曖昧だ
Fineweb 2で私の母語に関する改善作業をしたので、参考になるかもしれない
似た問題がいろいろな地域で繰り返されているので、いずれ協業してみたい
そうした公共データセットを検討したことがあるか、またどの言語を優先しているのか気になる
モデル重みのダウンロードリンクを探すのにかなり時間がかかった
オープンウェイトなら、なぜすぐアクセスできるリンクがないのか疑問だ
その代わりリーダーボードと評価データセットは公開されている
論文では「我々の翻訳モデルは自由に利用可能なモデルの上に構築された」と述べているだけだ
2026年なのに、なぜまだ音声メッセージの自動文字起こし機能がないのかわからない
1600言語を翻訳できると言いながら、基本的な段落分けすらできていない
1600言語は多いが、「Omni」と呼ぶにはまだ遠い
一般に言語数は4千〜8千と推定され、最初の1000言語を確保することが最も難しい
以前の研究(Lauscher 2020)では、言語数が増えるほど翻訳品質が低下する多言語の呪いがあるとされていた
しかしMetaはこれを克服したようだ
論文要旨を見ると、訓練データ品質の改善と新しい評価ツールを導入したとしている
またOMT-LLaMAが既存モデルよりテキスト生成品質で優れていると主張している
興味深い点として、Metaが紹介したBOUQuETベンチマークがある
翻訳品質を言語横断的に評価するためのオープンイニシアチブだ
huggingface.co/spaces/facebook/bouquet
AIブーム以降、MS文書の翻訳がめちゃくちゃになった
例えば try/catch をドイツ語で「versuchen/fangen」と訳してしまう
特に会社の環境ではロケール設定を変えにくく、さらに不便だ
「shortly」を「short」と訳すような初歩的な誤りも多い