Sora 2公開:OpenAIの次世代動画・音声生成モデル(Sora 2 is here)
(openai.com)🔑 Key Highlights
• より現実的な物理シミュレーション
• 従来モデルが物体を「瞬間移動」させて成功を演出していたのに対し、Sora 2は実際の物理的な失敗や反動まで再現。
• バスケットボールがリングに当たって跳ね返るなど、物理法則に近い結果を提供。
• 高度なコントロールと一貫性
• 複雑な指示(複数ショット、場面転換、状態維持)を正確に追従可能。
• 場面間でキャラクターや物体の世界状態(world state)を維持。
• スタイルの多様性
• リアリズム、シネマティック、アニメーションなどの高品質な映像生成が可能。
• 環境音、効果音、セリフまで同期した音声生成をサポート。
• 「Upload yourself」機能(Cameos)
• ユーザーが短い動画・音声をアップロード → モデルがその人物をどの場面にも挿入可能。
• 見た目と声の両方を反映。
• コントロール権は本人にあり、アクセス権の管理と削除が可能。
• ソーシャルアプリ「Sora」公開(iOS)
• 生成・リミックス・共有機能を中心とした新しいソーシャルネットワーク。
• 招待制で開始し、米国・カナダで先行ローンチ。
• 基本無料+一定の利用量制限、Proモデルや追加生成は有料予定。
• 安全性と責任ある公開
• フィードアルゴリズム:滞在時間の最適化ではなく「創作の促進」に焦点。
• 青少年保護:フィード露出量の制限、保護者向け制御機能を提供。
• 著作権/同意:Cameo利用者にはアクセス権と削除権を保証。
• 人によるモデレーションを強化し、嫌がらせや悪用に対応。
• 技術的背景
• Sora 1が「動画のためのGPT-1」だったとすれば、Sora 2は「GPT-3.5 moment」。
• より大規模な動画データの事前学習(pre-training)と事後学習(post-training)により、世界シミュレーションモデルへさらに前進。
• 今後の計画
• sora.comからも利用可能。
• Proユーザー向けにSora 2 Proを提供予定。
• API公開の計画あり。
• 既存のSora 1 Turboも引き続き利用可能。
⸻
📝 TL;DR
• Sora 2 = 物理的により精巧な動画・音声生成モデル
• 人物/物体のcameo挿入が可能 → ソーシャルアプリSoraで体験
• ソーシャル+創作中心のプラットフォーム → 時間消費よりコンテンツ制作を志向
• 初期ローンチ:米国・カナダのiOS → Web/Pro/APIへ拡張予定
2件のコメント
こうした映像制作が増えれば、もしかすると人々をショート動画中毒から遠ざけることになるのかもしれませんね。スーパーカーに乗るショート動画を自分の顔でも作れるなら、スーパーカーのショート動画にはどれほどの価値が残るのでしょうか。
Hacker Newsの意見
OpenAIはSoraをソーシャルネットワーク、つまりTikTokのAI版(AITok)にしようとしているように見える
ウェブアプリはフィード、投稿へのいいね・コメント、ユーザープロフィールなど、消費中心の構造に焦点が当てられている
動画生成は付随的な要素で、生成される動画は非常に短く、設定も単純(横長/縦長を選べるだけ)である
長尺やストーリー重視の動画、高度な編集機能などは言及も試行もされておらず、Google Flowなど他のプラットフォームと比べて機能面の制約が大きい
物理的正確性のテスト動画も添付されていたが、Veoもそのプロンプトではまともに動作できていない
その一方で、かなり印象的な動画と粗い動画の両方が投稿されていて興味深い
Sora physics 例1
Sora physics 例2
Veo 例1
Veo 例2
個人的には革新的な技術やAIは好きだが、「TikTok but AI」が社会的に望ましい試みなのかはよく分からない
これによって得られる明確なポジティブな効果があるなら知りたい
動画生成の電力効率が劇的に改善されるか、エネルギーコストがほぼゼロに近づかない限り、
TikTok級の大規模リアルタイム動画消費サービスが収益面で持続可能になる可能性は低いと思う
現時点では、実際の人間が直接アップロードする動画のほうがはるかに低電力・低コストである
OpenAIがSoraをソーシャルネットワークとして育てようとする戦略は、実際にはMidjourneyが画像で既に採ってきたやり方でもある
Midjourney Explore - Videos
多くの人がMidjourney特有の画像スタイルを楽しんでおり、評価や相互作用によってモデルが学習する構造になっている
画像生成では「美学」のレベルも扱いやすい
Metaも最近似たような試みをしている
Meta, Vibes AI Video 発表
消費中心のフィード機能の強化は、間違いなく一つの方向性である
もう一つの理由として、複数のユーザーが同じように空のプロンプト欄にリソースを費やして似た結果を大量に出すより、
まず良い例を見せて、関連する議論を通じてより早く高品質な結果を得るやり方のほうが効率的である
こうした技術を見るたびに、ジュラシック・パークのJeff Goldblumのセリフを思い出す
上司がこういうツールで作った完成度の低いAI動画を見せて「これが未来だ」と叫ぶのだが、
一度くらい「これをいったい誰が望み、誰が見るのか?」という根本的な問いを立てていないように見える
AIコンテンツには、まだ見ればすぐ分かる限界が残っている
AIだけで作られた動画ストリームを誰が楽しく見るのだろうか? Metaとしては人に金を払うより安くコンテンツを確保できるので都合がいいが、
実際には質の低い「スロップ(slop)」にすぎない
著作権問題の扱いがあまりにも緩い
Soraは基本的にユーザーのIPをAI動画に利用する前提になっており、ユーザーは明示的に拒否しない限り除外されない
関連記事
さらに、これほど大きな波及力を持つプロジェクトを進めている人たちは、実生活の経験が乏しく、
きらびやかで目新しい技術にばかり執着し、影響や結果には関心がないように見える
(MetaのVibesも同じ文脈である)
その記事ではロボットが書いたと明記されているので、より正確な出典があるのか気になる
Grokでは1年以上にわたって著作権のあるキャラクターが自由に使われているが、まだ訴訟は起きていない
こうした技術が今後ブランド向けにライセンス提供され、
はるかにカスタマイズされた広告動画を制作できる可能性があると思う
たとえば、実際に服を注文する前に、自分がその服を着ている動画を見られるならかなり面白い体験だ
もしリアルタイム生成まで実現すれば、デパートの鏡の前を通るたびに自分の姿がさまざまな服装に自動で変わるという想像もできる
とてもわくわくする時代だ
ここまで来ると、物理的に服を買う必要すらなくなる気がする
インフルエンサーたちは自分の模擬動画をSNSに上げるだけで満足し、実際に訪問しなくても体験だけで宣伝できる
関連ミームツイート
さらに進めば、実際には外出していなくても友人たちとパーティー中の偽動画まで生成して投稿できるので、
結局は家でアイスクリームを食べながらでも、SNS上では活発な生活を演出できる
こういう場面はすでにMinority Reportで見た気がする
映画の中でTom Cruiseの名前が広告で直接呼ばれる演出が印象的だった
Minority Report - 映画ウィキ
「Virtual Try On(VTO)」と呼ばれ、すでに静止画像では広く活用されている
動画VTOも近いうちに登場すると自然に予想される
結局、この種の動画モデルの最も一般的な用途は、カスタム視覚化、たとえば製品のバーチャル試着のようなものに集中する可能性が高い
人は結局、AIよりも人間との共感を好むからである
SoraやVEOは映画やテレビコンテンツ制作にも大きな変化をもたらすかもしれない
AR家具配置(仮想的に自宅へ家具の位置を事前に置いてみる機能)も以前は革新的だと言われていたが、
実際にはほとんど誰も使っていない
ChatGPTの画像生成が最初の1週間で1億人以上のユーザーを集めた主な理由は、
人々が自分の友人、家族、ペットの写真をAI化することを非常に楽しむからである
「カメオ機能」も、こうしたバイラルな魅力をもう一度狙った試みだと予想する
PETAが反対しない限り問題なさそうだ
最も興味深い点は、
ユーザーが人物や製品のビデオクリップをプロンプトに含めると、
AIがそのメタデータをもとにリアルな映像を作ってくれる機能である
技術的には、高度化されたデータセットで事前学習した効果に見え、
ユーザーにとっては本当に使える商業的機能になり得る
しかし、こうしたデータ駆動型の革新はGoogleもYouTubeのおかげでほどなく追いつけるはずで、
すでに社内で類似技術を運用している可能性も高い
大切なお金を投じる立場として、実在しない幻や加工された製品画像は詐欺に近い
実際の製品ではない幻想に基づくレビューや広告は、倫理的に問題があると思う
この一連の構築は、実質的に終わりのないAIカスタムコンテンツのストリームへ向かう進展である
個人のドーパミン分泌を最大化するよう最適化された構造だ
これはまるでSkinner box(快楽のために反復行動を促す装置)のようなTorment Nexusだという感じがする
今のところ、こうした構造はエネルギーや資源の面で持続可能な状態ではない
例示プロンプトの一つである「青い炎でできた剣を持つ少年と悪霊が激突する激しいアニメバトル」は、
日本の漫画Blue Exorcistとほぼ同じコンセプトである
Blue Exorcist (ウィキ)
例示プロンプトにはそのものずばり「『スタジオジブリアニメ風で、少年と子犬が青い山を登り、遠くに村が見える』」というものまである
ドラゴンのキャラクターはHow to Train Your Dragonからほとんどそのまま持ってきたように見える
権利者と契約があるのか、それとも訴訟を呼び水にしてメディア露出を狙っているのか気になる
エンジニアリングの観点では本当に印象的な成果である
動画のクオリティは十分に高く、見入ってしまうほど良くなっていて、アンキャニーバレー(不気味の谷)的な感覚もある
OpenAIがこうした新技術に大衆を徐々に慣らしていく点は見事だ
このバージョンには制約が多いが、1〜2世代も進めば技術的な閾値を超えそうな流れがある
たとえばLLM市場ではGemini 2.5 Proが真の閾値だったが、Soraもまもなくそうした転換点を迎えそうだ
クリエイターの観点では、複数のアセット(背景、物体など)を先にセットとして作り、その後それらを複数のシーンで自然につなげられる機能があれば理想的である
連続性(continuity)が驚くほど高くなった動画である
ただし、いくつかのエラーは依然として目につく
より複雑なコンテ問題をどう解決するのか気になる
動画は大量のカット編集と素早いカメラ切り替えで連続性の問題を隠している
目立つほど、カットごとにウキクサやスノーモービルなどあらゆる要素が変わり続けている
結局、一貫して見えるのは顔の部分だけである
全体としてAI動画特有の問題は依然として残っており、単一環境で5秒以上続くシーンはほとんどない
アヒルのレースの場面でも、Samが登場するとすでにまったく別の草が出てくる
このデモですらエラーが多いということは、
一般ユーザーの結果はそれよりはるかに劣ることを示唆している
池で棒術を使う場面では、手首の角度が不自然に曲がっている
池の棒術デモでは、木の棒が突然弓のような形に変わるなど、明らかに「AIっぽい」と分かる場面が簡単に見つかる