Opus 1.5の主なアップグレード
- Opus 1.5が発表され、機械学習ベースの品質改善を含むさまざまなアップグレードが行われた。
- 以前のバージョンと完全に互換性を保ちながら、オーディオ体験を向上させる新機能が導入された。
- 機械学習によって、信号処理と生成に初めて深層学習技術が使用された。
パケット損失処理
- パケット損失は通話中の最大の不便の1つであり、パケットが届かなければコーデックの品質が高くても意味がない。
- パケット損失隠蔽(PLC)は欠落したパケットの代わりに音声を補完する役割を担い、機械学習が大きく役立つ。
- ディープニューラルネットワーク(DNN)を用いてPLCを実行しており、これは論文と技術的な詳細で確認できる。
深層冗長性(DRED)
- パケットが連続して失われる場合、PLCだけでは限界があり、冗長性によってこれを解決する。
- Opusには低ビットレート冗長性(LBRR)メカニズムが含まれているが、MLを使って音声を効率的に圧縮するDREDが導入された。
- DREDは約12〜32 kb/sのオーバーヘッドで1秒分の冗長性を送信できる。
ニューラルボコーダー
- DREDとPLCの低い複雑性は、新しいニューラルボコーダー技術によって実現された。
- FARGANボコーダーはLPCNetの1/5の複雑性で、ノートPCや最新のスマートフォンでもCPUコアの1%未満しか使用しない。
低ビットレート音声品質の向上
- 十分なビット数が与えられない場合、コーディングアーティファクトが聞こえることがあり、LACEとNoLACEという2つの改善手法が導入された。
- LACEは従来のポストフィルターに似ているが、デコーダーが利用できるすべてのデータに基づいてDNNがポストフィルター係数を最適化する。
- NoLACEはより多くの計算を必要とするが、追加の非線形信号処理により、より強力である。
WebRTC統合
- DREDはジッターバッファとの緊密な統合を必要とし、ジッターバッファの大きさはパケット到着遅延を許容する最大量を決定する。
- DREDデータは遅れて到着するオーディオパケットと同様に処理され、ネットワーク状況が改善すればバッファサイズを縮小できる。
IETFおよび標準化
- この作業はIETFのmlcodecワーキンググループ内で進められており、Opusの一般的な拡張メカニズム、深層冗長性、音声コーディング改善に重点を置いている。
- DREDメカニズムはOpusパケットに追加情報を含めつつ、以前のバージョンのデコーダーでも通常のOpusデータを引き続きデコードできるようにする。
その他の改善事項
- OpusではAVX2サポートとリアルタイム検出が追加され、新しいDNNコードとSILKエンコーダーがより高速になった。
- ARMv7 Neon最適化がAArch64で再び有効化され、エンコードがより効率的になった。
- パケット損失をより現実的にシミュレーションするため、パケット損失モデルを生成して実際に近い損失を再現できる。
GN⁺の意見
- Opus 1.5は、既存のオーディオコーデック技術を機械学習で強化する革新的なアプローチを示している。これは通信技術の進歩における重要な発展となり得る。
- パケット損失の問題はリアルタイム通信における重要課題であり、Opus 1.5の技術はそれを解決する効果的な方法を提供する。特にDREDのような機能は、ネットワークの不安定性が高い環境で有用になり得る。
- ニューラルボコーダーのような技術は音声品質向上に重要な役割を果たすが、その複雑性と性能要件を考慮すると、すべてのユーザーが恩恵を受けられるかどうかは議論の余地がある。
- Opus 1.5の技術は、WebRTCのようなリアルタイム通信プラットフォームに統合されたときに真価を発揮し、リモートワークやオンラインコミュニケーションの品質を大きく向上させる可能性がある。
- 標準化プロセスは、こうした技術が広く採用され互換性を維持するうえで重要な役割を果たしており、IETFの取り組みはこの技術がより広範なアプリケーションやサービスで利用されることに貢献するだろう.
まだコメントはありません。