Show HN: 偽の Google Gemini デモを GPT-4 で再現、今回は実際に動作

(sagittarius.greg.technology)

2 ポイント投稿者 GN⁺ 2023-12-12 | 1件のコメント | WhatsAppで共有

GPT-4 を使った Google Gemini の偽デモのリメイク、今度は本物

Google Gemini の偽デモを GPT-4 を使ってリメイクしたプロジェクト。
実際に動作するデモが提供されており、関連コードは GitHub リポジトリで確認可能。
このプロジェクトは Greg Technology によって作られた。

GN⁺の意見

この記事で最も重要な点は、GPT-4 を活用して過去の偽デモを実際に実装したプロジェクトの存在。
人工知能技術の進歩が、実際に利用可能な革新的成果物を生み出す過程を示す事例として興味深い。

1件のコメント

GN⁺ 2023-12-12

Hacker Newsのコメント

偽のGeminiデモで魔法のように見えた部分は、LLMが音声と動画入力を受け続けていて、いつ割り込んで答えるべきかを分かっているように見えた点にあった
ユーザーが絵を描き終えるまで待ったり、終わる直前に割り込んだりするように見え、回答の途中でユーザーがアヒルを青く塗ると、青いアヒルのように見えるとも言っていた
ユーザーがただ同意しているだけのときは応答が不要だということも分かっているように見えた
ソースコードを確認したところ、デモは動画フィードから800msごとにスクリーンショットを撮り、ユーザーが話し終えるまで待ってから最後のスクリーンショット3枚を送っていた
このデモ自体は印象的だが、連続的な音声・動画入力がない場合に、この方法でLLMとやり取りすることがどれほど不自然かも示している
技術的にはしばらく前から可能だったことだが、誰も製品のように打ち出してこなかったのには理由がある
- このデモは2〜3時間で作られ、「ディクテーション結果が確定するまで待つ」という手法を使っていた
  この方法はディクテーションの文字起こしがより安定するので安全だが遅い
  別のデモである https://www.youtube.com/watch?v=fxS7OKh_4vc では、「進行中」の文字起こし結果を継続的にGPTへ入れていたが、本当に速くて素晴らしかった
  ただし、人間の実際の発話、文字起こし時間、GPTリクエストの送信、GPTが答える時点でのユーザーの発話と思考の位置に合わせる同期など、さまざまなタイミングを扱うにはさらに作業が必要
  それでもリアルタイム・連続会話が確実に核心であり、GPTがWebSocketで提供されるといいのにと思う
- 聴覚障害者としてリアルタイム音声認識のデモを20〜30年見てきたが、どれもデモではよく見える
  しかし日常で使うと、10語に1回しか間違えなくても、時間がたつにつれて非常にいら立つレベルに積み重なる
- 友人とも、連続ストリーム入力を受けるマルチモーダルLLMについて話した
  例えばギターの練習を聞いていて、特定の箇所に来たら「よし、その部分に戻ってもう一度練習しよう」と言うようなもの
  連続的なトークンストリームが入ってきて、出力は時々だけ必要な場合、一般的な次トークン予測の方式はあまり合っていないように見える
  文献ではこうした入力を何と呼び、どのような研究がされているのか気になる
- こういう場合は、一時停止トークンのようなもので学習するのが鍵になる気がする
  もしかすると必須ではないかもしれない
  GPT-4に、応答を待つべきだと判断するたびに .... のようなものを出力するよう指示すれば、ユーザーが終わるまで待つ必要がなくなり、ずっと滑らかになるかもしれない
- GPT-4チャットボットをグループチャットにつなげて、人々の発言に反応させたいと思ったが、いつ話すべきで、いつ人間同士に会話させておくべきかの判断が難しすぎて、結局諦めた
企業がなぜここまで嘘をつくのか分からない
得られるものがどれほど大きいのか分からないし、むしろ失うもののほうが多そうに見える
さらに奇妙なのは、こうしたツールは誇張しなくてもすでに非常に印象的だという点だ
機械学習研究者として素晴らしい成果は多いと思うが、論文から製品まで、ほぼすべてが過度に膨らまされている
短期的には一部の人に役立つかもしれないが、全員にとって良くない底辺への競争を生み出してしまったように思う
特にGoogleのような企業が短期ゲームをするのは賢い選択ではなく、もしかすると私が私たちの住む環境を完全に誤解しているのかもしれない
このスレッド[0]での議論を見ると、倫理的にあまりにも壊れていて、自分たちのしていることが欺瞞的だということすら分からない人も多いようで、それはまったく別の、より悪い問題だ
[0] https://news.ycombinator.com/item?id=38559582
- 同じ日に動画が出ると、CEOがGoogleの新技術はGPT-4よりはるかに優れているので、うちでもすぐ使うべきだとメッセージを送ってきた
  デモには懐疑的だが、この分野のあらゆる進歩と同じく、リリースされたら自分で使ってみるつもりだと返した
- 「Googleのような企業が短期ゲームをするのは賢くない」というのは、プリンシパル・エージェント問題かもしれない
  エージェントである従業員と経営陣は短期的なキャリア上の利益を最適化し、Googleの株主に忠実ではない
  3年後に退職できるので、Googleの評判へのダメージは彼らにとってそれほど重要ではないかもしれない
  一方で株主は、評判のような長期的要素を最適化してほしい
  良いガバナンスや株価に連動したベスティング報酬で合わせようとはするが、ある程度の不一致は常に生じる
  この点で、使命に対するカルト的なほどの整合文化が価値を持ち得る
  従業員が実際に使命を信じるよう説得するか、そういう人を採用すれば、整合性がついてくる
- 企業がなぜそうするのか気になるなら、Business Todayが出した見出しを見るだけでよい
  “Google Gemini Outperforms Most Human Experts & GPT-4 I Artificial intelligence I Google’s DeepMind”
  すべてマーケティングだ
  Satyaが、OpenAIの件がうまくいかなければsamaや他の人たちがMSFTの新チームに合流して継続すると公に投稿したのと同じ理由だ
- デモ後、Googleの株価はすぐには動かなかったが、おおよそ5%上昇し、操作のニュースが出た後に約1%を戻した
- 今回の件は、Googleがもはや技術を理解する人ではなく、非技術系のビジネス人材によって運営されているという印象を、これまで以上に強く与えた
  この技術がどう動くのかを少しでも知っている人たち、つまりこの技術や他のGoogle製品を使うかどうかの意思決定に関わる可能性が高い人たちは、操作をすぐ見抜ける
  そういう人たちは、このような欺瞞的な振る舞いに非常に否定的に反応するタイプであることも多い
Gemini のリリース時に言いたかったことは、まさにこのデモだった
あの騒ぎは全部不要だった
GPT-4V は本当に強力で、ビジョンやマルチモーダルに関心がある人なら LLaVA も真剣に試してみることを勧める（https://github.com/haotian-liu/LLaVA）
ここ数日 7B q5_k 変種を使ってみたが、かなり印象的で、社内向けデモアプリや概念実証まで作ってみようと思えるほど良かった
ただし先にライセンスを確認する必要があり、そうでなければ社内デモとしてだけ使って要点を伝えるつもり
- https://github.com/Mozilla-Ocho/llamafile で llava を使っているが、最近のシステムならどこでも動く
- LLaVA の商用利用可否が気になる人向けに追記すると、Apache 2.0 ライセンスなので、表示さえすれば商用利用可能: https://github.com/haotian-liu/LLaVA/blob/main/LICENSE
GPT-4V で十分に可能だったことだった
文字どおりスクリーンショットを撮って、画像とテキストをチャット形式、つまりインターリーブ方式で入れればよい
最近のハッカソンで似たものを作った（https://x.com/swyx/status/1722662234680340823）
おかしな点は、Google もそうできたはずで、そうしていれば皆が適切に感心しただろうに、代わりに一般向けに誤解を招くマーケティング動画を作ったことだ
そのせいで、残りの苛立ったナードたちが「まだテレビで見たように動く技術ではない」と説明する汚れ仕事を引き受けることになり、まるでこちらのせいであるかのように見えてしまう
こういうものを動かすコストも気になる
- これを開発してデモする間に GPT-vision API へ 77 回リクエストし、請求額は 0.47ドルだった
  かなり妥当だ
もはや Google DeepMind は最先端 LLM の分野で実際には何も持っておらず、ただ虚勢を張っていたのだと確信するようになった
ChatGPT がリリースされたとき、Google は AI 安全性のために公開していない、ずっと優れたモデルがあると言っていた記憶がある
その後 PaLM と PaLM 2 を出して、ChatGPT に勝つため公開する時が来たと言ったが、良いモデルではなかった
その次に Gemini を大々的に持ち上げたが、Gemini Ultra が彼らの持つ最高のものなら、より良いモデルがあるとは信じがたい
1年前は、Google は最高のモデルを持っているが公開していないだけだと思っていたが、その後は、インフラとデータと人材があるのだから最高のモデルを作れるはずだと期待するようになった
だが実際に持っていたものは何でもなかったということだ
最近、Google が以前公開し、その後いくつものアップデートと反復を経た AI 対話型翻訳アプリを実際に使ってみようとした
実際の会話にはまったく使えないレベルだった
本当に役立つ可能性がある状況だったので期待していたし、昔のデモでは非常に自然に見えた記憶があったが、自分で使ったことはなかった
今使ってみて元のデモを見返したところ、全部または一部が捏造だったと 100% 確信した
これが実際に動いていたはずがない
絵でアヒルを描くよりはるかに有用なリアルタイム会話翻訳すらまともに作れないなら、今回の新しい AI もかなり疑わしい
完全に同じ状況に見えるし、こういうものを丸ごと捏造するにはどれだけ厚かましくなければならないのか理解できない
- そのアプリの名前は何だった？
この素晴らしいデモとは少し別に、JPEG 画像だけを GPT-4 に入れられるインターフェースというのは無駄に感じる
人間の目は画像そのものよりも、フレーム間の差分を処理している
高解像度リアルタイム動画処理を可能にする次の大きなステップは、MPEG のような動画コーデックのように、モデルの内部状態がキーフレームとデルタを扱うようにすることかもしれないと思う
- Google が Gemini のマルチモーダルについて語るとき、モード一覧に「動画」を含めている
  実際に動画を意味しているのではなく、このデモのようにフレームを意味している可能性も十分ある
  私が見た範囲では、どこでも詳しく説明されていなかった
名前に Sagittarius を選んだのが面白い
黄道十二宮では Gemini の正反対にある
- Facebook が以前、実体のない暗号通貨 Libra、その後の「Diem」にそう名付けたのは、長年の競争相手である Winklevoss 双子が Gemini という暗号通貨取引所を作ったことへの牽制だった、という推測があった
  占星術的にどれほど気が利いているのかは分からない
コード上では、音声テキスト変換とテキスト音声変換はブラウザ組み込み機能を使っているように見える
そういう機能があることをつい忘れてしまう
これは API を経由するので、レイテンシは理解できる
ローカルインフラで推論すればほぼ即時なので、この人にアクセス権さえあれば、このデモは他のものを圧倒していただろう

Show HN: 偽の Google Gemini デモを GPT-4 で再現、今回は実際に動作

GPT-4 を使った Google Gemini の偽デモのリメイク、今度は本物

GN⁺の意見

関連記事

1件のコメント

Hacker Newsのコメント