GPTsを基盤に、AIがストーリー生成から動画まで自律的に無人自動制作する挑戦記
(youtube.com)誰にとってもストーリーテリングを作ることは非常に重要ですが、難しい部分でもあります。
何よりも良いストーリーを創作することが核心です。
ChatGPTの登場によってAIを活用したストーリー生成には革新が起きましたが、今なお
道のりは長いと見ています。
約1年前、ChatGPTとStable Diffusionを使った絵本を制作し、
カカオブランチに掲載した経験があったので、今回はもう少しマルチモーダルなものを
作ってみることにしました。
目標は、初期設定の後は「人を排除した状態で、99%以上をAI自身が最終成果物まで
作る無人化を中核にする」と定めました。
もちろん、斬新で説得力のあるストーリーが因果関係でつながっていることは必須です。
それに伴い、「子ども向けYouTubeコンテンツ」を実行目標に設定しました。
子ども向けに設定した理由は、
- ストーリーを扱いやすいこと
- 動画の品質に対して期待効果が大きいと予想したこと
- 子ども向けコンテンツは初めてなので作ってみたかったこと
[具体的な実行方法(アーキテクチャ)を構想して直接ビルドする]
-
ストーリー生成ロジックは「一貫性を維持しながら新しいエピソードが継続的に追加される
構造として設計すべきであり、それによって持続性が生まれる」と考えました。 -
それに合わせて、子ども向けストーリーテリング専用のGPTsを作りました。(現在は自分だけが閲覧できる設定)
GPTsのインストラクションはA4約1ページ分で、非常に細かく(「全体のコンセプトと文脈を
維持できるようにすることが目的」)設定しました。
インストラクションでは、すべての文章の冒頭と末尾に指定したキーワードを必ず使用させました(この動画を初めて見る人でも、どんなコンセプトと背景なのかを認識でき、次回作を期待させるためのテキスト上の設定)。
本文は自然な時間の流れに沿って、危機・葛藤・解決の軸で進行するようにし、
詳細な例を多数設定することで文脈を維持したまま、新しいエピソードの生成も
そのルールに従うようにしました。
*「トリの冒険」というコンセプトを「毎日眠って起きるたびに顔が変わる少年」と設定した
理由は、画像生成ではシード維持が難しい特性があるため、むしろ欠点を長所に
変えようという意図であり、毎回新しいエピソードが生成されるので、かえって良いと
判断しました。 -
GPTsで生成されたスクリプトは、Zapierを通じて後続の加工およびマルチモーダル生成のために
ActionsをAPIで連携しました。
*GPTs Actions設定の詳細な方法は、本人が書いたカカオブランチのリンクを参照
https://brunch.co.kr/@seawolf/9
- GPTsに接続すると、GPTsは私に「新しいエピソードのテーマキーワード」を尋ねるようにしました。人が決めることはそれだけです。もちろん、これもランダムにできます。
「テーマキーワード」の導出方法は、インストラクションで設定したとおり次の手順に従います。
- 検索ポータルを通じて「子ども」たちが好む(検索キーワードの流入量などで判断)最新の
「キーワード」(実際にやってみると、ゲームや遊びなどがやはり圧倒的です)を抽出して提示するようにしました。 - 提示されたキーワードの中から気に入ったものを選ぶと
- インストラクションで指定したロジックどおりに、その場で1ページ分の新しいストーリーを説得力ある形で出力します。
- たいていは気に入る斬新な内容ですが、プロンプトで一部の変更や削除を依頼できます。
- 最終確定したテキストは、Actionsを通じて「自分のメールまたはAPIに送信せよ」と命令すると、即座に送信されてトリガーが発生します。
-
ここから、GPTsから呼び出されて送信された値(テキスト)を受け取ったZapierでは、私が設定
しておいた順序どおりにAPIが呼び出され、データ加工、融合、生成などが行われます。 -
最終的な動画生成までのマルチモーダル構成要素(APIおよび複数のサービスプラットフォーム活用)
- 最適化されたテキストスクリプト
- テキストから音声を生成
- スクリプトのコーパス(通常は1文から3文までを1つの塊と規定)の
文脈とキーワードを自動抽出して画像生成 - 音楽、効果音、絵文字などの付加的なアクセサリーも文脈に合わせて自動配置
- 生成された音声を字幕として出力
- 最終動画レンダリング
- オプションとして「多言語変換」
- 完成版をダウンロードして完了
- YouTubeコンテンツとして登録
所要時間を測ってみると(だんだん速くなっています)、
- GPTsを通じた新しいストーリー生成の全過程: 1分未満
- Actions呼び出しによるバックエンドAPIの後続処理: 1〜2分程度
- 最終的なマルチモーダル動画の自動生成まで: 約3分
- この段階で人が確認し、修正すべき部分を少しリタッチ
してあげると品質は大きく向上します(単純なリタッチなら3分程度) - 最終レンダリング: 3〜5分(動画サイズによって異なる)
つまり、10分あればかなり良い水準の3Dモデリング背景を持つ、しっかりしていて面白い
子ども向け動画を1本作れるということです。
コストといっても、OpenAIを含むいくつかの有料APIの利用料とホスティング費用を
すべて合わせても、3分以内の動画を1本作る場合、原価の面では1分あたり1,000ウォン未満でしょう。
[完成した成果物を見るリンク]
「トリの冒険」エピソード1: K-POPスター変身(韓国語)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s
「トリの冒険」エピソード1: K-POPスター変身(英語版)
https://www.youtube.com/watch?v=CT3KHU7BvIs
「トリの冒険」エピソード2: スーパーヒーロー変身(韓国語)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s
「トリの冒険」エピソード3: サンタクロース変身(韓国語 / 3Dモデリング版)
https://www.youtube.com/watch?v=wl2RWAqOXtY
工程の90%以上は無人自動化を達成したと見ています。
この実験を通じてさまざまな応用分野を見つけ、情報を
共有するという趣旨で投稿します。
さらに多くの情報を知りたい方は、コミュニティに参加してください。
[ コミュニティ(カカオトークのオープンチャット)参加リンク ]
https://open.kakao.com/o/gE6hK9Vf
1件のコメント
多くの方々に少しでもお役に立てれば幸いです。