4 ポイント 投稿者 GN⁺ 2023-12-02 | 1件のコメント | WhatsAppで共有
  • 言語間の壁を取り払い、より自然に多言語間コミュニケーションを可能にするAI研究モデル群
    • SeamlessExpressive: 言語をまたいで表現や言語の微妙なニュアンスを保持
    • SeamlessStreaming: 約2秒の遅延で音声およびテキスト翻訳を提供
    • SeamlessM4T v2: 多言語・マルチタスクのファウンデーションモデルで、音声とテキストによるコミュニケーションを支援
    • Seamless: SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2の機能を1つに統合

表現のニュアンスを保持

  • SeamlessExpressiveは、人間の表現に含まれるニュアンスを捉える翻訳を目指す
  • 従来の翻訳ツールは会話内容を捉えるのは得意だが、一般的に単調でロボットのような音声として出力される
  • SeamlessExpressiveは、話し方のスタイルや感情的な色合いだけでなく、話す速度や間の取り方といった言語の細かなニュアンスも保持しようとしている

ほぼリアルタイムの翻訳

  • SeamlessStreamingは、約2秒の遅延で翻訳を提供する初の大規模多言語モデル
  • SeamlessM4T v2をベースとしており、自動音声認識と、約100の入力言語および出力言語に対する音声-テキスト翻訳をサポート
  • また、約100の入力言語と36の出力言語に対する音声-音声翻訳もサポート

汎用翻訳のための基盤モデル

  • 2023年8月、Metaは音声とテキストにまたがる翻訳および文字起こしで最先端の結果を提供するSeamlessM4Tの初版を紹介
  • これを基に改良されたモデルであるSeamlessM4T v2は、新しいSeamlessExpressiveおよびSeamlessStreamingモデルの土台となる
  • 新しいアーキテクチャと非自己回帰のテキスト-ユニットデコーダを特徴とし、テキスト出力と音声出力の一貫性を向上

研究アプローチ

  • 協力とオープンな研究の力を信じ、研究者がこの取り組みを基に発展させられるよう、Seamless Communicationモデル全体を公開
  • 安全で責任あるAIエコシステムを促進するため、翻訳における幻覚と有害性の影響を大幅に低減し、表現力のあるモデルの音声出力に対してカスタムのウォーターマーキング手法を実装

GN⁺の見解

この記事で最も重要なのは、Metaが言語の壁を取り払うために開発したSeamless Communication AIモデル群の紹介である。これらのモデルは、表現のニュアンスを保ちながらほぼリアルタイムで翻訳を提供し、多様な言語をサポートする強力な機能を備えている。こうした技術の進歩は、世界中の人々がより自然で真実味のある形でコミュニケーションできる道を開いており、多くの人にとって興味深く魅力的なニュースとなるだろう。

1件のコメント

 
GN⁺ 2023-12-02
Hacker Newsの意見
  • 期待される未来技術への希望

    海外でヘッドホンを着け、自分の言語で周囲の会話を聞ける日を楽しみにしている。子どもの頃にSFで見た「ユニバーサル翻訳機」に魅了され、父がフランス語-英語の同時通訳として忙しく働くのを見て、自分で翻訳機を作ろうとしたこともあった。翻訳は重要な仕事であり、多くの人の助けになり得ることを願っている。

  • 技術を活用した言語学習ツールへの期待

    この技術を活用した語学教師の開発に期待している。誰もが1日に数時間、個人教師を持てるようになるかもしれない。中国やメキシコで働きながら、VRゲームを通じて言語を学ぶのは非常に魅力的だ。

  • リアルタイムストリーミング技術の可能性

    聴覚障害のある新入社員のために、会社はDragonのようなリアルタイムで動作しないソリューションを提案したが、その社員は自らWhisperを使って、ほぼリアルタイムのテキスト変換ソリューションを開発した。新しいモデルを使って彼がどんなことをするのか楽しみだ。

  • 翻訳の正確さに対する懸念

    翻訳機が時々不正確な単語を使うこと以上に、誤解を招く翻訳をすることのほうが気になる。たとえば、what the fuck をスペイン語に翻訳する際、意味が和らいだ qué diablos と出力されるのは、元の意図を正確に知りたい利用者にとって問題になり得る。

  • AIによる産業変化への認識

    妻が複数言語で吹き替えを行うプロの声優になろうとしていたとき、AIによる業界の変化を予見して進路を変えた。AIの発展には印象的なものを感じる。

  • 音声合成技術の進歩と今後への期待

    テキスト読み上げ技術はここ数年で大きく進歩したが、この技術がOSに組み込まれたTTSエンジン(たとえばスクリーンリーダーなど)にいつ統合されるのか気になっている。

  • 特定言語へのサポート不足に対する不満

    ヒンディー語のような主要言語がサンプルに含まれていないことに失望している。インドはFacebook最大のユーザーベースの一つだが、Facebookはインドに十分な貢献をしていない。

  • 言語データ不足への問題提起

    英語-スワヒリ語翻訳を試した結果はよくなかった。Huggingface M4T V2を使ったが、ほとんどの場合うまく動かず、ただ別の声で英語を返すだけだった。どのデータが不足していて言語が適切に機能しないのか、明確な説明が必要だ。データ提供を通じて支援できるかもしれない。

  • 翻訳機のエラーに対する表現

    toxic word hallucinations という表現がサイバーパンク的だと感じる。

  • 人工知能翻訳技術の進歩への感嘆

    この30年間で成し遂げられた進歩に感動している。90年代半ば、学生時代にドイツ人工知能研究センターのVerbmobilシステムに携わったことがあり、これは非常に限定された範囲で英語・ドイツ語・日本語の音声対音声翻訳を行っていた。当時は、ドメインモデリング、文の構文解析、意味エンジン、3言語向けに個別調整された音声認識など、「伝統的な」NLP手法が使われていたが、このアプローチは結局行き止まりだったと認識している。