2 ポイント 投稿者 GN⁺ 2023-12-12 | 1件のコメント | WhatsAppで共有

GPT-4 を使った Google Gemini の偽デモのリメイク、今度は本物

  • Google Gemini の偽デモを GPT-4 を使ってリメイクしたプロジェクト。
  • 実際に動作するデモが提供されており、関連コードは GitHub リポジトリで確認可能。
  • このプロジェクトは Greg Technology によって作られた。

GN⁺の意見

  • この記事で最も重要な点は、GPT-4 を活用して過去の偽デモを実際に実装したプロジェクトの存在。
  • 人工知能技術の進歩が、実際に利用可能な革新的成果物を生み出す過程を示す事例として興味深い。

1件のコメント

 
GN⁺ 2023-12-12
Hacker News のコメント
  • 「偽の Gemini デモの“魔法”」は、LLM が継続的に音声と動画の入力を受け取り、ユーザーの会話やお絵描きが終わるタイミングを察知して適切なタイミングで応答しているかのように見せていた。
  • ソースコードを確認したところ、このデモは 800ms ごとに動画フィードのスクリーンショットを撮影し、ユーザーが絵を描き終えるまで待ってから最後の 3 枚のスクリーンショットを送信していた。この方法で LLM とやり取りするのは、連続的な音声・動画入力なしでは不自然に感じられることを示している。
  • 企業がなぜこのような形で嘘をつくのか理解できない。実際には失うものも多いはずで、この種の誇大広告は短期的には役立つかもしれないが、長期的にはプラスにならない。
  • Google DeepMind が実際に最先端の LLM を持っていなかったことは確実だと思う。ChatGPT が公開されたとき、Google は AI の安全性のためにより優れたモデルを公開しなかったと言っていたが、実際はそうではなかった。
  • GPT-4V は非常に印象的で、視覚やマルチモーダルに関心がある人には LLaVA を試してみることを勧める。個人的には 7B q5_k バリアントを使ってみて、とても印象深かった。
  • GPT-4V を使って同様のデモを作ることができた。Google が誠実なマーケティングをしていれば誰もが適切に感心したはずだが、その代わりに一般大衆向けの誤解を招くマーケティング動画を作り、技術の専門家たちを失望させた。
  • Google の AI 会話翻訳アプリを実際に使ってみようとしたが、現実の会話ではまったく使い物にならない。デモでは自然に見えたが、実際には機能しないことを確認した。
  • GPT-4 との唯一のインターフェースが JPEG 画像だけというのは無駄だと思う。人間の目は「フレーム」そのものよりもフレーム間の差分を認識する。動画コーデックのように、内部状態がキーフレームとデルタで動作するモデルが、リアルタイム動画処理の次の大きなステップになるかもしれない。
  • Google DeepMind が実際に最先端の言語モデルを持っていなかったことは確実だと思う。ChatGPT 公開当時、Google は AI の安全性のためにより優れたモデルを公開しなかったと言っていたが、実際はそうではなかった。
  • このデモの遅延は API 経由によるものなので許容できる。ローカルインフラでの推論はほぼ即時なので、そのインフラにアクセスできるなら、このデモは他のすべてを凌駕するだろう。
  • Sagittarius という名前を選んだのは、星座で Gemini のちょうど反対側にあるため面白い。