AV2ビデオコーデック、AV1比で30%低いビットレートを達成、2025年末に最終仕様公開予定

(videocardz.com)

6 ポイント投稿者 GN⁺ 2025-10-13 | 3件のコメント | WhatsAppで共有

AV2はAlliance for Open Mediaが開発中の次世代オープンビデオコーデックで、5年間の開発を経て2025年末の最終仕様公開を控えている
テスト結果では、AV2は同じ画質でAV1比約30%低いビットレートを達成し、VMAF基準で32.59%の改善を記録
AIベースの革新よりも、数学的最適化とアルゴリズム改善によって効率を高めた点が特徴
256×256スーパーブロック、完全再帰分割、データ駆動型予測モード、TIP(Temporal Interpolation) などにより、高解像度および高速な動きの処理性能を向上
ハードウェア効率性の検証を完了しており、今後はエンコーダ最適化およびAI支援プロファイル拡張へと開発の重点が移る予定

AV2の開発状況

AV2はAV1のハイブリッドブロックベース構造を維持しつつ、より大きな256×256スーパーブロックと完全再帰的分割方式を導入
- 輝度(luma)と色差(chroma)の分割を分離し、より精緻な予測が可能になった
- 予測システムには、データ駆動型イントラモード、改良されたクロマ・フロム・ルマモデリング、最大7つの参照フレームを使用する順位型参照システムを搭載
TIP(Temporal Interpolation Prediction) 機能が追加され、高速に動く、あるいは高解像度のシーンでモーション補償効率を向上

品質と圧縮効率

NetflixのAndrey Norkinは、PSNR-YUV基準で28.63%、VMAF基準で32.59%のビットレート削減を確認したと発表
- VMAF(Video Multi-Method Assessment Fusion) はNetflixが開発した映像品質測定指標で、主観的な画質評価を反映する
これらの改善はAIではなく数学的モデリングとアルゴリズム革新の成果であり、AOMグループはAI拡張の可能性に言及したものの、コーデック自体は従来型の方式に基づいている

変換および量子化システム

統合指数型量子化器(exponential quantizer) が導入され、8、10、12ビット映像をより広い範囲と精度でサポート
Trellisベース量子化とカスタムマトリクスにより、低ビットレートでも細かな制御が可能
学習ベース変換(transform) およびクロスコンポーネント変換により、テクスチャを維持しながら圧縮副作用(artifact)を低減
係数符号化(coefficient coding) は、スクリーンコンテンツおよび混合コンテンツ向けに改善

フィルタリングと後処理

単一化された汎用デブロッカー(deblocker) が細部のテクスチャをよりよく保持し、
Guided Detail Filter や Cross-Component Sample Offset などの新しいフィルタによってノイズ除去性能を向上
フィルムグレイン合成(film grain synthesis) は、より柔軟に適用可能
マルチレイヤービデオ(multi-layer) および ステレオビデオ(stereo video) をサポートし、次世代マルチメディアフォーマットに対応

今後の計画

すべてのAV2ツールでハードウェア効率性の検証が完了
次の段階では、エンコーダ最適化と高ビット深度およびAI拡張プロファイルの開発に焦点が当てられる予定
最終仕様(specification)は2025年末発表を予定しており、その後は主要プラットフォームおよびストリーミングサービスで順次導入される見込み

3件のコメント

kippler 2025-10-13

AV1 という名前は変わっていると思っていましたが、ちゃんとした計画があったんですね…

carnoxen 2025-10-13

AV1で終わりかと思っていたのに、さらに進化する可能性があるんですか？！
技術というものは本当に予測できませんね……

GN⁺ 2025-10-13

Hacker Newsの意見

ストリーミングサービスがいつ過剰圧縮をやめるのか疑問。最高級の4K TVとギガビット回線を使っているのに、圧縮アーティファクトのせいで画面がまるでパテのように見える。実際、自分が見た中で最高の画質は20年前に簡単なデジタルアンテナで視聴していた時だった。特にグラデーションや映画の暗いシーンで圧縮の痕跡が非常に目立つ。ちなみにTVは完全にキャリブレーション済みで、最高帯域のストリーミングプランを使っている。視覚的に似た例の画像はこちらで見られる
- ストリーミングサービスにとって、コンテンツ配信コストは莫大で、コンテンツ制作後に残る最大のコストがここ。だからビットレートを下げるために極端な手法まで使う。Netflixがカメラグレイン（ノイズ）を除去し、クライアント側で人工的に生成したノイズを追加するアルゴリズムを導入した理由もそれだし、YouTube Shortsが最近極端なデノイズ技術を使った事例もある。ノイズはランダムデータなので圧縮が非常に難しく、できるだけ消したがる。ただしライブカメラ撮影映像でノイズを除去すると、極細部のディテールまで一緒に失われる副作用がある。関連議論はこちらを参照
- グラデーションや暗いシーンで圧縮の痕跡が見えるのは、TVのキャリブレーションが正しくないときに起きる現象。コントラストを高くしすぎている場合が多い。人は暗いシーンのあらゆるディテールを見ようとして調整しがちだが、本来そう見えるべきではない部分もある。適切に調整されたディスプレイでは、暗部はほとんど見えないはず。多くのコーデックも暗いシーンのディテールを削る設計になっている。もちろんストリーミングサービスがその基準を過剰に適用しているのも事実だが、多くの人がディスプレイを誤って調整していることがこの対立の一因でもある
- Netflixはコロナ前には1080Pコンテンツで8Mbps前後を使っていた。x264/beamrではかなり良好で、HEVCではさらに優れていた。しかしコロナ以降、すべてのストリーミングサービスが需要急増と帯域制限を理由に画質を下げた。その後、視聴者は低画質に慣れてしまい、もう戻さないように見える。最近のテストでは3〜5Mbps水準。HEVC/AV1/AV2コーデックはH.264比で50%以上のビットレート削減が可能だが、0.5〜4Mbps帯を超えると削減幅は急速に小さくなり、高ビットレートではx264エンコーダのほうがむしろ良い可能性もある
- Netflixのように極端に低い平均ビットレートだけを使っているわけではなく、サービスごとに異なる。データ例を見ると、NetflixのKateは11.15 Mbps、DisneyのAndorは15.03 Mbps、AmazonのJack Ryanは15.02 Mbps、MaxのThe Last of Usは19.96 Mbps、AppleのFor All Mankindは25.12 Mbps。さらに詳しい数値と比較はこのリンクで確認できる
- 君には海賊版のほうがむしろ合っているかもしれない
人々がいまだに動画容量をさらに減らすアイデアを見つけているのはかなり驚き。単に頭のいい人たちの発想なのか、それともデコード/エンコード工程でより強力な処理能力が使えるようになったおかげなのか気になる
- どちらも正しい。フォーマットが進化するにつれて、より創造的な手法を適用できるようになり、より多くの計算資源も投入できるようになる。例えばフレーム変化は「スーパーブロック」(<a href="https://en.wikipedia.org/wiki/Macroblock">マクロブロック</a>に似たもの)単位でエンコードする。こうしたブロックはフレーム内の別の部分や前フレームを参照して変化量を推定する。ブロックの変化領域をより精密に囲んで定義できるほど効率は高い。ただしブロック位置を説明するにもデータが必要なので、この記述を最小化するための制約ルールがある。AV2ではブロック定義の方法が変わり、変化領域に合わせやすくなったうえ、最大ブロックサイズも2倍になって、大きな動きもブロック数を減らして効率的に圧縮できるようになった。このほかにもさまざまな変更があり、エンコーダのアルゴリズム的な創意工夫も進化し続けている。こうした進歩を実際に適用するには、ビットストリームで許可される変換や予測手法などについて標準として合意する必要がある。参考動画はこちらで見られる
- 特許は依然として大きな役割を果たしている。新技術は既存特許を侵害しないよう非常に慎重である必要がある。だからAV1/AV2でも使えないトリックや手法があるかもしれない
- どちらも必要。最新コーデックは画質（PSNR、SSIM）、計算複雑度（CPU vs DSP vs メモリ）、ストレージ、ビットレートなどの面でそれぞれ異なるトレードオフがあるので、あらゆる状況に最適な唯一のコーデックというものはない
- 生成AIコーデックが実運用で使われる日はいつ来るのか気になる。概念自体は比較的単純で、エンコーダがデコーダの使う正確なモデルを把握し、主要なピクセルだけを送って残りをデコーダがAIで補完するというもの。例えば群衆の中のランダムな人物の顔を生成したり、必要ならその領域により多くのデータを送って特定のチームのマスコットの顔に寄せたりすることもできる。圧縮が極端に進めば、最終的には動画ではなく、シーンを記述するテキストスクリプトのようなデータだけが残るだろう
- AV2の詳細はよく知らないが、H.265からH.266に移る際にはアングル予測の角度が2倍になり、クロマをルマから予測するツール、ピクセルブロックコピーなど、intra predictionだけでもさまざまな手法が追加された。インタープレディクションも大幅に改善された。これらはすべてハードウェアデコーダの論理回路やシリコン面積をかなり消費するが、ビットレート削減効果は大きい。CPUデコーダ基準では追加計算負荷はそれほど深刻ではない。本当のコストはエンコード側にある。圧縮効率を最大化しようとすると選べる予測ツールが増え、エンコード時間が長くなるからだ。だからGoogleはAV1エンコードを再生数が非常に多い動画にだけ適用している
今回は2回目の船出なので、もう少ししっかりしたものになってほしい。AOMでは10月20日にライブセッションが予定されていて楽しみにしている。より多くのデータや数値、エンコード/デコード複雑度、ハードウェアデコーダのロードマップ、規格準拠とテストキット、将来のプロファイル、AVIFとAV2の改善、JPEG-XLとの比較まで扱う予定。30% BDRATEがAV1の最新エンコーダ比なのか、それとも1.0基準なのか気になる。ライブエンコードの改善にも触れられそう
AV1比で30%削減とはすごい。出たばかりの気がしていたのに2019年のものだった
- 自分も去年になってようやくAV1ハードウェア対応の最初の機器を使った。コーデックの急速な進化には常に欠点もあって、コンテンツを複数フォーマットで保管し続ける必要があるか、そうでなければクライアント側でソフトウェアデコードすることになってバッテリー消費が増える。YouTubeは明らかに後者を好んでいる
- 驚きすぎて、むしろ疑いたくなるレベル。本当なら本当にすごい
コーデック実装と最適化の仕事は、おそらく自分の人生で最も楽しかったことの一つ。AV2を深く掘ってみたいが、今は時間がない
ついにAVIみたいな名前ではないコーデックが出てきてうれしい
- AVIはコーデックじゃなくてコンテナフォーマットでは？
この高速光ファイバー回線インターネットもあまり意味がなくなってしまうな…
- 世界の大半はいまだにモバイルネットワーク経由でデータや動画を消費している
- その通り。ちょうど1TB microSDカードの返品期間がまだ残っていて助かった
- 今後は8Kコンテンツのストリーミングが始まるかもしれないし、16K VR動画に使われるかもしれない
- 最大効率と最大可用性を同時に追求するのが理想。計算資源やエネルギー市場にも同じ原則が当てはまる
- メディアが増えれば速度需要が増し、速度が上がればまたメディアが増えるという無限ループ
AV1という名前はAVI（Audio Video Interleave）へのオマージュかジョークだと思っていたが、AV2ではその感じが薄れる。AV1には.av1拡張子のファイルとvideo/AV1 MIMEタイプもあるが、AV2が出たら今度は全部.av2とvideo/AV2で重複させることになるのだろうか。AVIFフォーマットはどうなるのかも気になる
- .av1拡張子は生のAV1データファイル。AV2は.av2を使う予定で、相互互換はない。実際にはMatroska（.mkv）、WebM、MP4のようなコンテナにビデオストリームが入り、コーデックタイプコードを指定する（av01、av02）。AVIFもコンテナなので、名前はAV1 image formatだが、望むならAV2にも拡張できる。明確に合わせるならAOMedia Video Image Formatに改名すればよい
- ファイル拡張子はファイル形式だけを表し、内部コーデックとは切り離すべきという話？実際、昔はそうして問題になったこともある。拡張子を見るだけでファイルを読めるかどうか分かると便利ではある
AV1やAV2形式でCloudflareのブロックメッセージが出る人はいる？
いつ頃gaussian splattingベースのビデオコーデックが出てくるのか気になる