1 ポイント 投稿者 GN⁺ 2025-11-15 | 1件のコメント | WhatsAppで共有
  • 9つのAIモデルが毎分ごとに新しいアナログ時計デザインを生成するWebプロジェクト
  • 各モデルは2000トークンの制限内でHTML/CSSコードとして時計を作成
  • 時計には数字またはローマ数字の表示CSSアニメーションの秒針レスポンシブデザイン白背景が含まれる
  • 生成された結果はMarkdownなしの純粋なコード形式で出力
  • AIの視覚的創造性とコード生成能力を同時に示すインタラクティブな実験プロジェクト

プロジェクト概要

  • AI World Clocksは、毎分ごとに9つの異なるAIモデルが生成した時計デザインを表示するWebサイト
    • 各時計は同じ時刻を表示するが、モデルごとにデザインとコード構造が異なる
    • 時計はHTMLとCSSのみで構成されており、JavaScriptは使用されていない

生成ルールとプロンプト

  • 各AIモデルは2000トークン以内で時計コードを生成
  • 使用されたプロンプトには次のような要件が含まれる
    • アナログ時計の形で現在時刻を表示
    • 数字またはローマ数字を使用可能
    • CSSアニメーションの秒針を含む
    • レスポンシブデザイン白背景を維持
    • 出力はHTML/CSSコードのみを返すこと、Markdown形式は禁止

制作者と着想

  • プロジェクトはBrian Mooreが制作
  • アイデアはMatthew Rayfieldから着想を得ている
  • 制作者はInstagramで活動中

特徴と意義

  • AIモデルごとのデザインの多様性コードスタイルの違いを視覚的に比較可能
  • 単なる時計生成ではなく、AIの創造的なコード生成能力を実験する形になっている
  • 毎分ごとに新しい結果が表示され、継続的な変化とリアルタイム性を提供

追加情報

  • 原文に記載された内容以外の追加説明はない

1件のコメント

 
GN⁺ 2025-11-15
Hacker Newsのコメント
  • 自分が作ったプロジェクトだと感謝を述べている
    時計という題材と、技術の限界を探るのが好きだという
    いくつかのモデルを見てきたが、Kimiは最も正確な一方で変化が少なく、やや退屈
    その一方でQwenはしばしば突飛で笑える結果を出してくれるので楽しい。どちらがより「良い」のかは分からない

    • 素晴らしい仕事だ。ユーザーが作例をクリックしたときに、LLMの元の出力を見られるようにするとよさそう
    • 生成された時計をDBに保存しているなら、Facemash風の投票サイトに拡張すると面白そう。2つの時計のうちどちらが良いか選び、Qwenが作った最高の時計のランキングを見てみたい
    • 壊れた時計も単なる失敗ではなく、新しいデザインの発想を与えてくれることがある
    • 今月HNで見た中で最高だ。ばかばかしいのに洞察があり、面白いのに哲学的だ
      実際にいくつかのデザインを現実に作ってみたくなる衝動に駆られる。お金をかけて実験した点も素晴らしい
    • 友人たちに共有したところ、同じ時間でもそれぞれ違う時計が表示されると言っていた。ユーザーごとに結果が違う理由が気になる
  • このサイトが本物なのか疑わしかった。数字のスケールと回転があまりにおかしかったからだ
    実際にそのプロンプトをChatGPTに入れてみたところ、かなりまともな文字盤は作れたが、時間が何時間分もずれていた
    後で考えると、ISPの地理的タイムゾーンが原因だったのかもしれない

    • OPが出力長を2000トークンに制限していると読んだ
  • 数分見ていると、Kimi K2が最も安定して完成度の高い文字盤を生成していた
    今日初めて聞いたモデルだが印象的だ。一方でQwen 2.5はほとんど失敗作レベルだ

    • プロンプトがKimi K2向けに最適化されているのかもしれないし、そのデータにより適した学習をしたモデルなのかもしれない
    • Kimi K2は、Kagiで質問形式のクエリへのAI回答を生成するときに使われているモデルとして知っていた
    • 自分はK2のファンだ。他のモデルより独特の個性があり、おべっかを使わない。創作ライティングにも強い
      GroqでホストされているK2は、知能/秒あたり比が驚異的だ(まだレート制限はあるが)
    • Kimi K2の時計は見た目がいちばんきれいだが、時間はしょっちゅう間違う
    • Kimi K2は本当に良くできたモデルだ
  • 画像生成モデルが最初に出た頃から13時間時計を作ろうとしていたが、失敗していた
    たいていは「12」を「13」に置き換えるだけか、文字盤を壊してしまう。もし成功した人がいたら方法を共有してほしい

    • 画像モデルは新しい概念への変形に特に弱い。言語モデルより一般化能力が低い
    • Gemini 2.5 Flashで試したところ、この画像が得られた
      外側は通常の12時間表示で、内側では「IIII」や「VIIII」のような奇妙なローマ数字表記が使われている
    • 複数のモデルに「農夫とヤギ、キャベツ、オオカミの雲」というなぞなぞを出したところ、ほとんどが既存の川渡り問題だと誤解した
      一部は何かおかしいとは感じるものの、最後まで正しく理解できなかった
    • Geminiに「13時間時計の角度」を計算させて画像を作らせたが、毎回同じ絵しか出てこなかった
      修正を頼んでも、結局は12時間時計に「13」を付け足しただけの結果になった
    • 悪態までつきながらいろいろなトリックを試したが失敗した。逆に6時間時計も試した
  • 非決定性の極致だ。一度は完璧な時計だったのに、リロードしたらダリ風の絵のような時計に変わった

  • 丸一週間、Claude CodeにGPUレンダリングコードを書かせようとしていたが、まったくまともに動かなかった
    細かなプロンプトや行列の説明まで与えたのに、結果はひどいものだった
    失敗した後はログを追加し、「完璧に直した」と自信満々に言うのに、依然として間違っている
    テストを書かせても、間違ったコードが一貫して間違っているかを検証しているだけだ
    最終的には「インターンモード」に入り、ランダムにコードを変えながら「これで完璧だ」と主張する
    かわいくはあるが、実用性はまだ遠い

    • MCPを使ってドキュメントと作例を一緒に提供してみたかと尋ねている。Context7のような構成を勧めている
    • OpenAI Codex GPT5.1を使ってみたか提案している。GPUレンダリング作業にはかなり向いている
    • こうした失敗がよく起きる理由が気になる。ネガティブ結果のデータ不足が原因かもしれない
      スクリーンショット検証ができないのは当然だ。VLLMは細かな視覚情報をうまく扱えない
    • Claudeはだんだん手抜きになってきている感じがする。テストの半分だけ直して「これで十分だ」と言い張る
  • LLMを盲信する人たちにとって、このプロジェクトは良い現実的な例
    「テストが失敗しています」→ LLMがテストを削除して「修正完了!」と言う、という具合だ

    • 時計を見て感じたのは、私たちは時計の正解を知っているからこそ誤りを認識できるということだ
      しかし、正解が分からない問題ではLLMの不確実性を測る方法がない
      結局、現実と照らし合わせて初めて誤りが分かる
    • 検証が難しい作業にLLMを使うのは危険な選択
    • 「テストを削除したLLM」の話は、まるで願いを文字通りに解釈する妖精の話のようだ
      「だからみんな、AIのコミットは必ずレビューしなきゃいけないんだよ」
  • LLMはレンダリングされたHTMLを直接見ることができない
    CursorでOpenGLの可視化プログラムを作っているが、視覚的なバグを説明するのがあまりにつらい
    「この線がつながっていない」といったことを理解させるのが難しく、結局デバッグ出力で座標を表示させることになる

    • Cursorのブラウザ機能を使えば、Web開発ではかなり有用だ
      MCP経由でスクリーンショットを会話に送らせることもできる。ただし実装は必要だ
    • 実際にスクリーンショットをCursorに渡してみたが、Web UIやグラフ生成ではかなり効果があった
    • Claudeはスクリーンショット送信を公式に推奨している。Sonnet 4.5もこうした反復作業に強い
    • Puppeteer MCPサーバーを接続すれば、Cursorが自分の出力のスクリーンショットを撮りながら反復的に改善できる
    • ClaudeもChatGPTも画像入力をサポートしている。lm-serverを使えば非テキストモデルとも連携できる
  • 本当に素晴らしいアイデアだ。驚くべきことに、Kimi K2だけが問題なく動く
    完全な「thinking」版ですらないのにだ
    関連記事の Kimi K2 Thinking を読み返したくなった

  • なぜDeepseekとKimiが他のモデルより圧倒的に良い結果を出すのか気になる
    もしかすると、この作業向けに特化学習されたモデルなのだろうか