Meta、Seamless Communicationモデルファミリーを発表
(ai.meta.com)- 言語間の壁を取り払い、より自然に多言語間コミュニケーションを可能にするAI研究モデル群
- SeamlessExpressive: 言語をまたいで表現や言語の微妙なニュアンスを保持
- SeamlessStreaming: 約2秒の遅延で音声およびテキスト翻訳を提供
- SeamlessM4T v2: 多言語・マルチタスクのファウンデーションモデルで、音声とテキストによるコミュニケーションを支援
- Seamless: SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2の機能を1つに統合
表現のニュアンスを保持
- SeamlessExpressiveは、人間の表現に含まれるニュアンスを捉える翻訳を目指す
- 従来の翻訳ツールは会話内容を捉えるのは得意だが、一般的に単調でロボットのような音声として出力される
- SeamlessExpressiveは、話し方のスタイルや感情的な色合いだけでなく、話す速度や間の取り方といった言語の細かなニュアンスも保持しようとしている
ほぼリアルタイムの翻訳
- SeamlessStreamingは、約2秒の遅延で翻訳を提供する初の大規模多言語モデル
- SeamlessM4T v2をベースとしており、自動音声認識と、約100の入力言語および出力言語に対する音声-テキスト翻訳をサポート
- また、約100の入力言語と36の出力言語に対する音声-音声翻訳もサポート
汎用翻訳のための基盤モデル
- 2023年8月、Metaは音声とテキストにまたがる翻訳および文字起こしで最先端の結果を提供するSeamlessM4Tの初版を紹介
- これを基に改良されたモデルであるSeamlessM4T v2は、新しいSeamlessExpressiveおよびSeamlessStreamingモデルの土台となる
- 新しいアーキテクチャと非自己回帰のテキスト-ユニットデコーダを特徴とし、テキスト出力と音声出力の一貫性を向上
研究アプローチ
- 協力とオープンな研究の力を信じ、研究者がこの取り組みを基に発展させられるよう、Seamless Communicationモデル全体を公開
- 安全で責任あるAIエコシステムを促進するため、翻訳における幻覚と有害性の影響を大幅に低減し、表現力のあるモデルの音声出力に対してカスタムのウォーターマーキング手法を実装
GN⁺の見解
この記事で最も重要なのは、Metaが言語の壁を取り払うために開発したSeamless Communication AIモデル群の紹介である。これらのモデルは、表現のニュアンスを保ちながらほぼリアルタイムで翻訳を提供し、多様な言語をサポートする強力な機能を備えている。こうした技術の進歩は、世界中の人々がより自然で真実味のある形でコミュニケーションできる道を開いており、多くの人にとって興味深く魅力的なニュースとなるだろう。
1件のコメント
Hacker Newsの意見
期待される未来技術への希望
技術を活用した言語学習ツールへの期待
リアルタイムストリーミング技術の可能性
翻訳の正確さに対する懸念
AIによる産業変化への認識
音声合成技術の進歩と今後への期待
特定言語へのサポート不足に対する不満
言語データ不足への問題提起
翻訳機のエラーに対する表現
人工知能翻訳技術の進歩への感嘆