6 ポイント 投稿者 GN⁺ 2026-04-23 | 3件のコメント | WhatsAppで共有
  • リアルタイムのオンデマンド生成により、すべてのページを画像として作成し、画像内の対象をクリックすると、さらに深く探索する新しい画面が生成される
  • 画面には HTMLや入力フィールド がなく、テキストまで画像モデルがピクセルとして直接レンダリングする ピクセル中心インターフェース として動作する
  • ページ情報は agentic web search と画像モデルの世界知識を組み合わせて作られ、正確性は ChatGPT、Gemini、Claude に期待する水準に近いとされている
  • live video stream 機能は探索画像をアニメーション化し、遷移を滑らかにするが、現時点では予測が難しくリソース消費も大きいため、トグルの背後に隠されている
  • 現在は 実験的な探索・学習ツール に近いが、画像・動画モデルの正確性と性能が向上すれば、より多くの実データとの対話、作業の実行、データ保存まで含む環境へ拡張できる可能性がある

概要

  • リアルタイムのオンデマンド生成で動作する無限視覚ブラウザであり、ユーザーが到達するすべてのページを画像で構成する
  • 画面には HTML、コード、特定のリンクや入力フィールド がなく、画像内の対象をクリックすると、その対象をさらに深く探索する新しい画像が生成される
  • Webを文書やUI要素の集合ではなく、画面上に生成される ピクセル中心インターフェース として再構成する

動作方式と拡張の方向性

  • 画面上のすべてのテキストも 画像モデルがピクセルとして直接レンダリング し、画像の上に別個のテキストオーバーレイを重ねない
    • その結果、テキストが不完全だったり誤った位置に表示されたりすることがあるが、モデルの改善とともに良くなる可能性があるとされている
  • 画像内の情報は agentic web search と画像モデル自身の世界知識を組み合わせて生成する
    • ときどき不正確な場合もあるが、オンライン上の実データに通常は基づく有用な出発点として紹介されている
    • 事実の正確性は ChatGPT、Gemini、Claude を使うときに期待できる水準とおおむね似ているとされている
  • テキストと色付きの長方形が中心の画面ではなく、豊かな視覚表現 によって情報を伝えるコンピューティング体験を目指している
  • 固定されたコードとルールだけでは複雑で繊細なアイデアを伝えにくいと考え、状況に応じて ひとつの単語、イラスト、写実的レンダリング のように最も効果的な表現方法を選ぶ方向性を強調している
  • live video stream は静的な画像をより連続的な動画ストリームに変える実験機能であり、各探索画像をアニメーション化し、その間の遷移をより滑らかにする
    • 現在の動作はやや予測しにくく、リソース消費も大きいため、オン・オフ可能なトグルの背後に置かれている
    • 現在は高度に最適化されたカスタム動画生成モデルと、画像生成システムの2つを組み合わせて使っており、今後は単一のシステムに統合する計画だとされている
  • 現在は 実験的な探索・学習ツール として設計されているが、画像・動画モデルの正確性と性能が向上すれば、より多くの実データを含み、相互作用し、直接作業を実行し、独自データを保存するページへ拡張できる可能性がある
    • 次の旅行を調べたあと別の場所で予約する段階から、Flipbook の中で全工程を処理する段階へ変わり得ることが例として挙げられている
    • 現在は別アプリやWebサイトが必要な作業も、今後は Flipbook のように見え、Flipbook のように動作する環境の中で、より多く処理できるようになるとされている
  • 埋め込み動画をサポートしていないブラウザでは再生されない
  • デモは 事前生成された動画 を使用しており、速度のために編集されている

3件のコメント

 
xguru 2026-04-24

紹介動画を見るだけでも一度試してみたくなりますが……3時間待ちだそうです。かなり人が殺到しているようですね

 
arthurk 2026-04-24

https://x.com/DongwooKim/status/2047499005580738657
ソウルの南山を回してみたのですが、とてもこぢんまりしていて良かったです。

 
GN⁺ 2026-04-23
Hacker Newsのコメント
  • これは本当に驚き。どこかで見つけた水耕栽培システムの図をアップしたら、
    配管、栄養供給、電気配線のような細部パートをそれぞれ高品質な図として作ってくれた
    完全に正確ではないが、コンセプト自体はとても気に入った

  • 車のサスペンションのトルク仕様の図を作れと頼んでみたが、自分が詳しい分野なので確認したところ、
    ほぼすべて正確に描かれていて、トルク値も合っていた
    個々の部品をクリックしてさらに拡大し、追加の仕様まで見られた
    ここしばらく見たデモの中で最も印象的で、生きたHaynes整備マニュアルのように使えそうだった

    • 庭の物置用の12V太陽光発電システムを設計させてみたが、大枠だけ合っていて残りは全部間違っていた
      太陽光パネル、充電コントローラー、バッテリー、負荷が必要という点だけは合っていたが、配線はめちゃくちゃだった
      充電コントローラーの設定のような細部に入ると完全に破綻した
      実際に頼れる情報としては絶対に使えないが、見世物としては面白く、実装は印象的だった
    • 裏庭の古いドアで自転車置き場を作る計画があるので設計させてみたが、
      出てきたものは単なる普通の物置にupcycled doorを付けただけのようなものだった
      自転車がどこに入るのかも見えず、実際の完成形にも似ていない構造を提示していた
      他のAIデモとまったく同じで、見た目はもっともらしいが、システムは自分が何をしているのかを根本的には理解していない
    • 実際に試してみた
      Jeep Wrangler JKのエンジンルームに部品ラベルを付けてくれと頼んだら、最初はそれっぽい図が出てきた
      だがブレーキフルードリザーバーが反対側にあり、その場所には冷却水オーバーフロータンクのラベルが付いていて、実際のオーバーフロータンクは描かれているのにラベルがなかった
      バッテリーの位置も間違っていて、フロントグリル上部にはオイルフィルターキャップと書かれており、オイル注入口の位置も違っていた
      バッテリーの半分はヒューズボックスとしてラベル付けされていたが、本物のヒューズボックスは反対側に正しく描かれているのにラベルがなかった
      フロントガラスのウォッシャー液タンクも、互いにくっついた2つとして表示された
      誤ってラベル付けされた冷却水タンクをクリックすると別ページに移り、今度は位置だけ合っていて見た目はまったく別物のタンクが表示され、ラジエーターキャップまでそのタンクの上に載っていた
      本来はラジエーターの上にあるべきだ
      知っている人が見ればあらゆる箇所で粗が見つかるが、知らない人の目にはかなり信頼できそうに見えるというのは、まさにLLMの話そのものだ
    • 机の上でMac Pro 5,1を完全に分解した状態で内部図を作らせてみたが、
      見た目はMac Proっぽかったものの、視覚要素はすべて間違っていた
      テキストも最初の一瞬だけ合っているように見えるだけで、クリックして入った内容もほとんど全部間違っていた
      見た目は格好よかったが、AIがここまで延々と間違え続けるのは2023年以降では初めて見た感じだった
    • "your mom"と入れたら、母性の歴史的社会タイムラインの上に胎盤を重ねたものを作ってくれた
      これは認める
  • クールなプロジェクトではあるが、こういうものを作って公開サービスとして回すための資源や資金がどう出てくるのか、いつも不思議に思う
    自前のGPUがあるか、GPT/Gemini APIを企業補助付きの推論として使っているのだろうが、
    倹約して生きてきた身としては、いまだに感覚がつかめない

    • 残念ながらこれは単に自腹で払っている
      ここまでバズるとはまったく予想していなかった
    • HNハグ・オブ・デスを一発食らって、一晩で推論コスト5万ドルの請求書を受け取ったら、すぐ落ちる気がする
    • 大学所属なのかもしれない
    • 趣味にお金を使うことを考えれば、それほど不思議なことではない
      ゲーム、絵、木工にお金を使う人もいれば、
      酒やスポーツの代わりにFAANG級の年収から余った余暇予算をGenAIアートプロジェクトに使う人もいる
      好みではないかもしれないが、他人から見れば贅沢に見えるような支出は誰の予算にも一つくらいある
    • 自分も同じような理由で、そもそも試みることすらしないつもりだった
      こちらではそれをimmigrant mentalityと呼ぶが、蔑称ではなく、人生を最初からやり直した人特有の倹約さに近い
      しかもものすごく遅かったので、結局待たなかった
      作った人を責めているわけではなく、ただ本当にあまりにも遅かった
  • 最初はこれが図ではなく、Webページそのものをリアルタイム生成するのだと思った
    ユーザーのニーズに合わせてアプリケーションがその場で作られる未来には以前から興味があったので、
    こういうものを実際に作った例があるのか気になる

  • Mac Neo、2つのM4 quantumチップ、solid state battery、graphene connectorという設定が出てきた
    https://flipbook.page/n/942776fea47c4274a9a4589134924ef5

  • Sneed's Feed and Seedが出てきた。Formerly Chuck'sとも書かれている
    https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe

    • 所有権の履歴をたどってみたら、最後の姓をChuck's Feed and Seedにしてしまっていた
      これをきちんと当てていたら本当に感心したと思う
    • 心からシンプソンズ屈指の名ギャグの一つだと思う
  • 自分の学習データには入っていないようだ
    https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406

  • アイデアは面白いが、今はほとんど全部失敗している
    たぶんHNハグ・オブ・デスのせいだろう
    Gemini generateContent request failedとともに429 RESOURCE_EXHAUSTEDが出て、
    現在の割り当てを超えたので料金プランと請求情報を確認しろと表示される
    詳細な制限情報へのリンクも一緒に出る

  • メインページのデモがParis Travel Overview / Visiting Notre Dameを表示していたので、
    実際に行ったことのある都市や場所をいくつかで試してみた
    関心地点そのものは時々合っているのだが、互いの空間的な位置関係は完全にめちゃくちゃだった
    現実とはまったく近くもなかった

  • こういうものはHNハグ・オブ・デスを食らうにはかなり高価な製品に見える
    ツイートに上がっていたサンプル動画は本当に見事だった
    ただ今はうまく動いていないので、トラフィックが少し落ち着いて数日後にまた試すつもりだ