10 ポイント 投稿者 aitechtree 2023-12-28 | 1件のコメント | WhatsAppで共有

誰にとってもストーリーテリングを作ることは非常に重要ですが、難しい部分でもあります。
何よりも良いストーリーを創作することが核心です。
ChatGPTの登場によってAIを活用したストーリー生成には革新が起きましたが、今なお
道のりは長いと見ています。

約1年前、ChatGPTとStable Diffusionを使った絵本を制作し、
カカオブランチに掲載した経験があったので、今回はもう少しマルチモーダルなものを
作ってみることにしました。

目標は、初期設定の後は「人を排除した状態で、99%以上をAI自身が最終成果物まで
作る無人化を中核にする」と定めました。
もちろん、斬新で説得力のあるストーリーが因果関係でつながっていることは必須です。

それに伴い、「子ども向けYouTubeコンテンツ」を実行目標に設定しました。
子ども向けに設定した理由は、

  1. ストーリーを扱いやすいこと
  2. 動画の品質に対して期待効果が大きいと予想したこと
  3. 子ども向けコンテンツは初めてなので作ってみたかったこと

[具体的な実行方法(アーキテクチャ)を構想して直接ビルドする]

  1. ストーリー生成ロジックは「一貫性を維持しながら新しいエピソードが継続的に追加される
    構造として設計すべきであり、それによって持続性が生まれる」と考えました。

  2. それに合わせて、子ども向けストーリーテリング専用のGPTsを作りました。(現在は自分だけが閲覧できる設定)
    GPTsのインストラクションはA4約1ページ分で、非常に細かく(「全体のコンセプトと文脈を
    維持できるようにすることが目的」)設定しました。
    インストラクションでは、すべての文章の冒頭と末尾に指定したキーワードを必ず使用させました(この動画を初めて見る人でも、どんなコンセプトと背景なのかを認識でき、次回作を期待させるためのテキスト上の設定)。
    本文は自然な時間の流れに沿って、危機・葛藤・解決の軸で進行するようにし、
    詳細な例を多数設定することで文脈を維持したまま、新しいエピソードの生成も
    そのルールに従うようにしました。
    *「トリの冒険」というコンセプトを「毎日眠って起きるたびに顔が変わる少年」と設定した
    理由は、画像生成ではシード維持が難しい特性があるため、むしろ欠点を長所に
    変えようという意図であり、毎回新しいエピソードが生成されるので、かえって良いと
    判断しました。

  3. GPTsで生成されたスクリプトは、Zapierを通じて後続の加工およびマルチモーダル生成のために
    ActionsをAPIで連携しました。

*GPTs Actions設定の詳細な方法は、本人が書いたカカオブランチのリンクを参照
https://brunch.co.kr/@seawolf/9

  1. GPTsに接続すると、GPTsは私に「新しいエピソードのテーマキーワード」を尋ねるようにしました。人が決めることはそれだけです。もちろん、これもランダムにできます。
    「テーマキーワード」の導出方法は、インストラクションで設定したとおり次の手順に従います。
  1. 検索ポータルを通じて「子ども」たちが好む(検索キーワードの流入量などで判断)最新の
    「キーワード」(実際にやってみると、ゲームや遊びなどがやはり圧倒的です)を抽出して提示するようにしました。
  2. 提示されたキーワードの中から気に入ったものを選ぶと
  3. インストラクションで指定したロジックどおりに、その場で1ページ分の新しいストーリーを説得力ある形で出力します。
  4. たいていは気に入る斬新な内容ですが、プロンプトで一部の変更や削除を依頼できます。
  5. 最終確定したテキストは、Actionsを通じて「自分のメールまたはAPIに送信せよ」と命令すると、即座に送信されてトリガーが発生します。
  1. ここから、GPTsから呼び出されて送信された値(テキスト)を受け取ったZapierでは、私が設定
    しておいた順序どおりにAPIが呼び出され、データ加工、融合、生成などが行われます。

  2. 最終的な動画生成までのマルチモーダル構成要素(APIおよび複数のサービスプラットフォーム活用)

  1. 最適化されたテキストスクリプト
  2. テキストから音声を生成
  3. スクリプトのコーパス(通常は1文から3文までを1つの塊と規定)の
    文脈とキーワードを自動抽出して画像生成
  4. 音楽、効果音、絵文字などの付加的なアクセサリーも文脈に合わせて自動配置
  5. 生成された音声を字幕として出力
  6. 最終動画レンダリング
  7. オプションとして「多言語変換」
  1. 完成版をダウンロードして完了
  2. YouTubeコンテンツとして登録

所要時間を測ってみると(だんだん速くなっています)、

  1. GPTsを通じた新しいストーリー生成の全過程: 1分未満
  2. Actions呼び出しによるバックエンドAPIの後続処理: 1〜2分程度
  3. 最終的なマルチモーダル動画の自動生成まで: 約3分
  4. この段階で人が確認し、修正すべき部分を少しリタッチ
    してあげると品質は大きく向上します(単純なリタッチなら3分程度)
  5. 最終レンダリング: 3〜5分(動画サイズによって異なる)
    つまり、10分あればかなり良い水準の3Dモデリング背景を持つ、しっかりしていて面白い
    子ども向け動画を1本作れるということです。
    コストといっても、OpenAIを含むいくつかの有料APIの利用料とホスティング費用を
    すべて合わせても、3分以内の動画を1本作る場合、原価の面では1分あたり1,000ウォン未満でしょう。

[完成した成果物を見るリンク]
「トリの冒険」エピソード1: K-POPスター変身(韓国語)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s

「トリの冒険」エピソード1: K-POPスター変身(英語版)
https://www.youtube.com/watch?v=CT3KHU7BvIs

「トリの冒険」エピソード2: スーパーヒーロー変身(韓国語)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s

「トリの冒険」エピソード3: サンタクロース変身(韓国語 / 3Dモデリング版)
https://www.youtube.com/watch?v=wl2RWAqOXtY

工程の90%以上は無人自動化を達成したと見ています。
この実験を通じてさまざまな応用分野を見つけ、情報を
共有するという趣旨で投稿します。

さらに多くの情報を知りたい方は、コミュニティに参加してください。
[ コミュニティ(カカオトークのオープンチャット)参加リンク ]
https://open.kakao.com/o/gE6hK9Vf

1件のコメント

 
aitechtree 2023-12-28

多くの方々に少しでもお役に立てれば幸いです。