AV1@Scale: フィルムグレイン合成の覚醒
(netflixtechblog.com)- Netflixは AV1 Film Grain Synthesis(フィルムグレイン合成) 技術を世界中の会員向けに大規模に適用し始めた
- この機能は ノイズと映画的な質感 をよりリアルに保持しながら、映像圧縮効率を高める
- AV1 FGSは 2つの中核技法(パターン復元、強度調整) を用いて、元のグレイン特性を正確に再現する
- これにより ビットレート削減 と同時に映像品質の改善、視聴者体験の向上が可能になる
- Netflixはこの技術を通じて アーティスティック・インテグリティ を維持しつつ、より多くのコンテンツでデータ効率を高める
AV1@Scale: フィルムグレイン合成の覚醒
Netflixにおけるフィルムグレイン合成の導入と、数百万人に向けた映像品質の強化
- Netflixは AV1 Film Grain Synthesis(FGS) ストリームの大規模導入を通じて、フィルムグレインの芸術的な風合いとリアリティを保ちながら、データ効率を最大化する革新を実現した
- フィルムグレインは ストーリーテリングの深み を加え、クラシック映画の雰囲気やリアリティを生かす重要な視覚要素である
- しかし 従来の圧縮アルゴリズム では、ランダム性の高いグレインを効果的に処理・圧縮するのが難しかった
# AV1におけるフィルムグレイン合成の理解
-
AV1 フィルムグレイン合成(FGS)ツールは 2つの主要モデル を使用する
- フィルムグレインパターン: 自己回帰(AR)モデル でグレインパターンを模倣し、AR係数はソース映像とデノイズ済み映像の差分(ノイズ)から推定する
- この係数で 64x64 ノイズテンプレート を生成し、再生時にランダムな 32x32 パッチを抽出して復元映像に合成する
- この方式は元映像の ノイズ特性と空間的相関 を忠実に再現する
- フィルムグレイン強度: スケーリング関数 で明るさの状況に応じてグレイン強度を細かく調整する
- エンコード時に画素値とノイズ強度の関係を区分線形関数としてモデル化し、映像の明るさや色に応じてグレイン強度を調整する
- この方式により 元映像の質感 をさらに正確に復元する
- フィルムグレインパターン: 自己回帰(AR)モデル でグレインパターンを模倣し、AR係数はソース映像とデノイズ済み映像の差分(ノイズ)から推定する
-
AV1標準は デノイズ手法 について特定の方式を強制していないため、利用者は望むデノイザーを選択できる
-
デノイズ後、映像(グレインのない映像)が圧縮され、グレインパターン・強度パラメータ とともにデータとして送信される
-
ユーザーの再生機では ブロックベース方式 でグレインが復元され、コンシューマー機器に最適化された実装となっている
# 圧縮効率と映像品質、視聴者メリット
- Netflixでは AV1 FGS の有効化により ビットレート削減効果 とともに、映画の芸術的なムードを保った 高品質な映像ストリーミング を提供できるようになった
- 実際の例では、従来方式に比べて 品質向上とデータ使用量削減 が同時に実現されている
- FGSは特にフィルタ処理や追加グレインの多いコンテンツでも、データ効率と元の質感保持の両方を満たす
# 要約
- AV1 Film Grain Synthesis(フィルムグレイン合成)は 芸術的完全性、視聴体験の強化、ストリーミング効率の改善 を実現する技術である
- Netflixはこの技術の大規模導入により、より多くの作品で 品質とデータ削減のバランス を保って届けている
- これにより、古典映画から現代映像に至るまで、情緒的な質感と技術的な効率性 の両立が可能になる
1件のコメント
Hacker Newsの意見
合成されたノイズが、元のノイズが持っていた細部やディテールを完全には再現できていない点を見落とした議論だと思う。高画質エンコードで実際のノイズが含まれていると、静止画から動画に移ったときに解像感が一気に跳ね上がるように感じることがある。24fpsではノイズが信号の上を動いているように見えるが、信号そのものは依然として鮮明に残っている。一方で、損失圧縮や合成ノイズをフレームごとに合成すると、もともと存在していた細部は復元不能になる。実際の24fps映像ではぼやけた印象を受け、とくに古いフィルム映像ではディテールの差が2倍以上になる。もし h.265 や AV1 が常に複数フレームを見て、動きに合わせてノイズだけを除去する形でエンコードしているならディテール損失はないが、実際にそう動作しているのかは分からない。ノイズ除去と合成の比較は静止画像で判断すべきではなく、実際の映像を並べて比べないと正しく分からない。ノイズもそれ自体がディテールだということを強調したい。
グレイン(ノイズパターン)はフレームごとに独立して存在し、シーン内の物体の動きに追従して動くわけではないので、合成ノイズに明確な時間的パターンさえなければ静止画比較でも十分だと思う。美的観点では、AV1 の合成グレインはソースのグレインサイズを適切に反映できておらず、古いフィルムの大きな粒子感があまり生きていない。また色チャンネルも別々にはモデリングしていないが、Netflix のソース映像はもともとクロマサブサンプリングされているので大きな問題ではないかもしれない。関連論文のリンクはこちら。関連内容は軽く読んだ程度なので、誤解があるかもしれない
時間的側面を説明するには、昔のフィルムプロジェクターを思い浮かべるとよい。各フレームの間には暗い瞬間があるが、目はこの点滅をほとんど知覚せず平均化してくれる(flicker fusion threshold)。ノイズやグレインも同様に知覚され、安定した信号ほど目立たない。天体写真でも複数の画像を合成してより良い SNR を作るが、人間の脳も少しそれに近い処理をしている。時間とともにノイズが平均へ収束し、信号がより明確に現れるわけだ。単一フレームだけを処理するデノイズアルゴリズムにはその文脈がないため、ディテールが失われたり、推測で補ったりすることになる。AV1 は特定のデノイズアルゴリズムを規定していないので、賢いアルゴリズムなら時間的文脈をうまく生かせると思う
ノイズ自体には信号はなく、信号の上にランダムに加わる雑音であって情報ではない。静止画像を何枚も平均すれば信号は残り雑音は相殺されて SNR が上がるという点から、ノイズをわざわざ残すことに大きな意味はないと思う。もし目立つ効果があるなら、それは元のフィルムグレインに対する美的満足感か、あるいは低ビットレート(圧縮の強い)映像のアーティファクトと高ビットレート(原本保持)映像との比較によって生じた差かもしれない
この点は本当に興味深い。機械学習でも夜間撮影映像を人間よりうまく解析できることがあり、センサーの雑音ですら特徴量として使える場合がある。ノイズは単なるノイズではないという点を強調したい
最近の 4K ブルーレイでは DRR 技術が使われているが、デノイズ工程で顔の毛穴まで消えてしまい、俳優の表情がろう人形のように見えることもあった
ノイズ追加の哲学的意味はさておき、この例ではデノイズ工程が過剰にぼかしをかけていて原本より鮮明さが低く、合成グレイン自体も本物のフィルムグレインというよりただのノイズに感じられる
その通りだと思う。高ビットレートになる前は、むしろ圧縮過程で元のグレインにビットを使いすぎるため、映像がよりぼやけたり濁って見えたりする。フィルムグレイン合成(FGS)は帯域制約のあるストリーミングにはかなり合理的だが、例の映像では合成グレインが本物らしく見えないという点には同意する。デノイズの度合いや方法によってはシーンのディテールが確実にぼやけうる
映画のポストプロダクションでは常にさまざまなトリックが使われてきた。視聴者が望むエフェクト(たとえばフィルムシミュレーション)を適用するかどうか選べるオプションがあればと思う。The Holdovers のように特定の時代を再現しようとする映画では、フィルムシミュレーションが本当に素晴らしかった。Netflix も今後はポストエフェクトをクライアント側で処理するようになり、たとえば色覚特性向けモードを提供したり人工グレインをオフにできたりするようになるかもしれない
AV1 の FGS はレベル調整が可能だが、私の目には少し高めに設定されているように見える(ビットレート条件によっては、この程度のほうが他のアーティファクトよりずっと見やすいこともある)。参考までに、静止シーンには映像品質評価の限界があり、理論上完璧なノイズ除去フィルター(非ノイズのディテールを 100% 保持)であっても原本よりディテールが少なく感じられることがある。脳と目はノイズのある画像を見ると、かえってより多くのディテールを「創り出す」ことがある
このテーマを探求した映画としては、アントニオーニの Blowup が代表例だ。Blowup のWikipedia
モーションピクチャーフィルムを間近で観察してきた立場からすると、今回の例のフィルムグレインは実物とかけ離れていると感じる。結局はディザリングに似た効果にすぎない
今回の議論で最も重要なのは「at scale」という点だ。これまでも AV1 エンコーダにはフィルムグレイン合成はあったが、問題を起こさないようにするには毎回手動で設定をいじる必要があり、実運用は限られたコンテンツにとどまっていた。ここで紹介された手法がその難しさをどう克服したのか詳しい説明はないが、大規模運用が可能になった点は歓迎したい
フィルムグレインに否定的な見方に対して言えば、あらゆる画像にはある程度のノイズやグレインがある。最高級のデジタルセンサーにも、さらには私たちの目にさえ存在する。単なる美学用途だけでなく、シャープネス知覚の向上や、バンディングや圧縮アーティファクトを隠す実用的な役割もある。もちろん、すべてのグレインが良いというわけではなく、技術的限界や誤った創作上の判断によるものも多い。それでも、あらゆる映像をデノイズして滑らかにした結果のほうが、むしろずっと不自然で不快だというのが私の考えだ
最先端のデジタルセンサーのグレインは、最近の映画で追加される量に比べればごくわずかだ
私の問題意識は、グレインを適用するかどうかは創作者の芸術的判断であるべきで、データ圧縮側の集団が恣意的に選ぶ問題ではないという点だ
HBO のイントロアニメーションは昔のアナログ放送信号のノイズを活用しているが、4K では品質がひどい。ランダムノイズはほとんど圧縮できないので、ここでのような方法(ノイズ除去後に復元)がどうしても必要になる
「grain は現実感を与え、物語の深みを増す」という主張には同意できない。私の目にはグレインなど見えないので、「現実=グレイン」という理屈は理解できない。それでも美的ツールとしてのグレインは格好いいと思うし、この技術も興味深く見ている
記事で触れられていたグレインのマスキング効果(アーティファクト隠し)や、慣れ・ノスタルジアに加えて、もう一つ説明を足せる。現実のあらゆる表面には微細なテクスチャがあるが、映像として記録するとカメラや解像度、圧縮限界などによりそのディテールが失われる。フィルムグレインはこうした高周波の視覚刺激を再び与えてくれる。目と脳はその刺激自体を好み、ノイズの位置やパターンはあまり気にしない。たとえば x265 エンコーダの psy-rd と psy-rdoq パラメータは、「映像がエネルギーを保っているように(少し粗く)見える」よう調整でき、データを多く使わずに画質を高められる
暗い夜には私たちの目にも一種の「きらつき」や「スタティック」が見え、実際に人間の目も技術的には多少ノイズを持っている。現実らしさ(Realness)とは、その時代の技術の痕跡によって定義されるものだ。ちょうどフィンセント・ファン・ゴッホの筆致が絵の一部であるように、フィルムグレインも媒体の現実の一部なので、可能ならその痕跡をできるだけ残そうとするわけだ
人は美的嗜好を論理的に正当化したがる。メディアに対する経験や理解が深いほど細かな変化を敏感に感じ取り、それが好みに反映される。子どもは古い無声コメディを見ても内容に反応するだけで、フィルムの特性には気を配らないだろう。逆に専門家ほどこうした細部の違いに敏感になる。フィルムグレインそのものが現実的(real)に感じられることも、各時代の社会的経験や自己認識の産物だと思う。40年後には映画のグレインをシュールあるいは単なる「ノイズ」と認識するようになるかもしれない
私の考えでは、グレインは映像を実際以上にディテール豊かに見せ、圧縮アーティファクトやぼやけも隠してくれる。心理的要因はよく分からないが、確かに追加の高周波成分やディザリング効果があるようだ。人間の目にも実際には量子的現象によるグレインがあるが、脳が強くフィルタリングするため認識していない
デジタルカメラが主流になり始めた初期には、デジタル映像が不自然に感じられ、フィルム映画のほうが美しいという認識が強かった。おそらくクラシック映画を愛するシネフィルの存在も、フィルム=良いという感覚の根拠になっていたのだろう。結局のところ、シャープネスを下げたいときに有用な美的ツールだと思う
携帯電話通話の AMR-WB オーディオコーデックも、公式には 50 Hz-7,000 Hz まで対応しているが、最も広く使われる 12.65 Kbps では実際には 6,400 Hz までしか保存せず、それより上は低周波+ノイズ合成で埋めている。ノイズなしで単純に切り落とすより、そのほうがはるかに自然に聞こえるからだ
ミラーレスカメラのフォトグラファーとして、私は後処理で独特の雰囲気を作ろうといつも工夫している。たとえば絞りを最大限まで絞り込み、デノイズ・シャープニング・カラーグレーディングを積極的に使う。もし自分の写真が古い本から取り出したような雰囲気になれば、それを前向きに捉える。フィルムルックのフィルターもいろいろ試してきたが、自分が思う不規則な結晶体スタイルのフィルムグレイン(撮影前からフィルム上に存在する不規則なピクセル群)を本当に再現できたフィルターはまだ見たことがない。たいていはピクセル状の四角いグレインで、説得力がない
「フィルムグレインが本物らしさや郷愁を加えてくれる」という主張には同意できない。私にとってはむしろ細部を隠してしまう視覚的ノイズでしかない。郷愁は俳優や自分が当時見た体験から来るもので、必ずしもグレインによるものではない。「現実感を与える」という主張も非現実的だ。AV1 がこうした視覚的なゴミにビットを浪費せず、簡単かつ柔軟に合成・除去できるようにしてくれるのは良いことだと思う
ドキュメンタリーは「現実の再現」を目標にするかもしれないが、映画は監督の視点が優先される。グレインも音楽のように感情や雰囲気を演出する芸術的要素と見なせる
物理的には照明や撮影そのものにショットノイズがあるので、実際に「完全無雑音」の現実は存在しない。ショットノイズのWikipedia 参照
フィルムグレインの利点をうまく説明できていないとは思うが、実際にはグレインは画像のシャープさやディテール感を(たとえ錯覚であっても)高めてくれるし、撮影監督 Steve Yedlin も「観客の目が捉える何かを与える」と表現している
映画における「ノイズ」か「ディテール」かの判断は、主観的解釈が強いと思う。近年の映像圧縮技術によって生じる別種の視覚ノイズも、厳然として存在する
多くの人が見落としている重要点は、ノイズを除去してから圧縮すると圧縮効率が大幅に上がることだ。同じビットレートなら、ノイズを残したまま圧縮するとディテールやエッジが大きく損なわれる。これはデスクトップのメディアプレーヤーでも昔から使われてきた考え方だ
フィルムグレインはもう退場すべきだと思う。セピア写真や 16fps の無声映画の時代はもう終わっており、フィルムグレインもやめる時だ。Eastman Business Park も撤去された。YouTube 動画で埃やスクラッチを演出するのも、もう見たくない
フェイクのフィルムグレインはともかく、フィルムグレインそのものを完全になくそうというのは、油絵の筆致まで消そうという主張に等しいのではないか
そもそも、フィルムグレインが必ず消えるべき理由は何なのだろうか