GPTsを基盤に、AIがストーリー生成から動画まで自律的に無人自動制作する挑戦記

(youtube.com)

10 ポイント投稿者 aitechtree 2023-12-28 | 1件のコメント | WhatsAppで共有

誰にとってもストーリーテリングを作ることは非常に重要ですが、難しい部分でもあります。
何よりも良いストーリーを創作することが核心です。
ChatGPTの登場によってAIを活用したストーリー生成には革新が起きましたが、今なお
道のりは長いと見ています。

約1年前、ChatGPTとStable Diffusionを使った絵本を制作し、
カカオブランチに掲載した経験があったので、今回はもう少しマルチモーダルなものを
作ってみることにしました。

目標は、初期設定の後は「人を排除した状態で、99%以上をAI自身が最終成果物まで
作る無人化を中核にする」と定めました。
もちろん、斬新で説得力のあるストーリーが因果関係でつながっていることは必須です。

それに伴い、「子ども向けYouTubeコンテンツ」を実行目標に設定しました。
子ども向けに設定した理由は、

ストーリーを扱いやすいこと
動画の品質に対して期待効果が大きいと予想したこと
子ども向けコンテンツは初めてなので作ってみたかったこと

[具体的な実行方法（アーキテクチャ）を構想して直接ビルドする]

ストーリー生成ロジックは「一貫性を維持しながら新しいエピソードが継続的に追加される
構造として設計すべきであり、それによって持続性が生まれる」と考えました。
それに合わせて、子ども向けストーリーテリング専用のGPTsを作りました。（現在は自分だけが閲覧できる設定）
GPTsのインストラクションはA4約1ページ分で、非常に細かく（「全体のコンセプトと文脈を
維持できるようにすることが目的」）設定しました。
インストラクションでは、すべての文章の冒頭と末尾に指定したキーワードを必ず使用させました（この動画を初めて見る人でも、どんなコンセプトと背景なのかを認識でき、次回作を期待させるためのテキスト上の設定）。
本文は自然な時間の流れに沿って、危機・葛藤・解決の軸で進行するようにし、
詳細な例を多数設定することで文脈を維持したまま、新しいエピソードの生成も
そのルールに従うようにしました。
*「トリの冒険」というコンセプトを「毎日眠って起きるたびに顔が変わる少年」と設定した
理由は、画像生成ではシード維持が難しい特性があるため、むしろ欠点を長所に
変えようという意図であり、毎回新しいエピソードが生成されるので、かえって良いと
判断しました。
GPTsで生成されたスクリプトは、Zapierを通じて後続の加工およびマルチモーダル生成のために
ActionsをAPIで連携しました。

*GPTs Actions設定の詳細な方法は、本人が書いたカカオブランチのリンクを参照
https://brunch.co.kr/@seawolf/9

GPTsに接続すると、GPTsは私に「新しいエピソードのテーマキーワード」を尋ねるようにしました。人が決めることはそれだけです。もちろん、これもランダムにできます。
「テーマキーワード」の導出方法は、インストラクションで設定したとおり次の手順に従います。

検索ポータルを通じて「子ども」たちが好む（検索キーワードの流入量などで判断）最新の
「キーワード」（実際にやってみると、ゲームや遊びなどがやはり圧倒的です）を抽出して提示するようにしました。
提示されたキーワードの中から気に入ったものを選ぶと
インストラクションで指定したロジックどおりに、その場で1ページ分の新しいストーリーを説得力ある形で出力します。
たいていは気に入る斬新な内容ですが、プロンプトで一部の変更や削除を依頼できます。
最終確定したテキストは、Actionsを通じて「自分のメールまたはAPIに送信せよ」と命令すると、即座に送信されてトリガーが発生します。

ここから、GPTsから呼び出されて送信された値（テキスト）を受け取ったZapierでは、私が設定
しておいた順序どおりにAPIが呼び出され、データ加工、融合、生成などが行われます。
最終的な動画生成までのマルチモーダル構成要素（APIおよび複数のサービスプラットフォーム活用）

最適化されたテキストスクリプト
テキストから音声を生成
スクリプトのコーパス（通常は1文から3文までを1つの塊と規定）の
文脈とキーワードを自動抽出して画像生成
音楽、効果音、絵文字などの付加的なアクセサリーも文脈に合わせて自動配置
生成された音声を字幕として出力
最終動画レンダリング
オプションとして「多言語変換」

完成版をダウンロードして完了
YouTubeコンテンツとして登録

所要時間を測ってみると（だんだん速くなっています）、

GPTsを通じた新しいストーリー生成の全過程: 1分未満
Actions呼び出しによるバックエンドAPIの後続処理: 1〜2分程度
最終的なマルチモーダル動画の自動生成まで: 約3分
この段階で人が確認し、修正すべき部分を少しリタッチ
してあげると品質は大きく向上します（単純なリタッチなら3分程度）
最終レンダリング: 3〜5分（動画サイズによって異なる）
つまり、10分あればかなり良い水準の3Dモデリング背景を持つ、しっかりしていて面白い
子ども向け動画を1本作れるということです。
コストといっても、OpenAIを含むいくつかの有料APIの利用料とホスティング費用を
すべて合わせても、3分以内の動画を1本作る場合、原価の面では1分あたり1,000ウォン未満でしょう。

[完成した成果物を見るリンク]
「トリの冒険」エピソード1: K-POPスター変身（韓国語）
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s

「トリの冒険」エピソード1: K-POPスター変身（英語版）
https://www.youtube.com/watch?v=CT3KHU7BvIs

「トリの冒険」エピソード2: スーパーヒーロー変身（韓国語）
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s

「トリの冒険」エピソード3: サンタクロース変身（韓国語 / 3Dモデリング版）
https://www.youtube.com/watch?v=wl2RWAqOXtY

工程の90%以上は無人自動化を達成したと見ています。
この実験を通じてさまざまな応用分野を見つけ、情報を
共有するという趣旨で投稿します。

さらに多くの情報を知りたい方は、コミュニティに参加してください。
[ コミュニティ（カカオトークのオープンチャット）参加リンク ]
https://open.kakao.com/o/gE6hK9Vf

1件のコメント

aitechtree 2023-12-28

多くの方々に少しでもお役に立てれば幸いです。

GPTsを基盤に、AIがストーリー生成から動画まで自律的に無人自動制作する挑戦記

関連記事

1件のコメント