- 9つのAIモデルが毎分ごとに新しいアナログ時計デザインを生成するWebプロジェクト
- 各モデルは2000トークンの制限内でHTML/CSSコードとして時計を作成
- 時計には数字またはローマ数字の表示、CSSアニメーションの秒針、レスポンシブデザイン、白背景が含まれる
- 生成された結果はMarkdownなしの純粋なコード形式で出力
- AIの視覚的創造性とコード生成能力を同時に示すインタラクティブな実験プロジェクト
プロジェクト概要
- AI World Clocksは、毎分ごとに9つの異なるAIモデルが生成した時計デザインを表示するWebサイト
- 各時計は同じ時刻を表示するが、モデルごとにデザインとコード構造が異なる
- 時計はHTMLとCSSのみで構成されており、JavaScriptは使用されていない
生成ルールとプロンプト
- 各AIモデルは2000トークン以内で時計コードを生成
- 使用されたプロンプトには次のような要件が含まれる
- アナログ時計の形で現在時刻を表示
- 数字またはローマ数字を使用可能
- CSSアニメーションの秒針を含む
- レスポンシブデザインと白背景を維持
- 出力はHTML/CSSコードのみを返すこと、Markdown形式は禁止
制作者と着想
- プロジェクトはBrian Mooreが制作
- アイデアはMatthew Rayfieldから着想を得ている
- 制作者はInstagramで活動中
特徴と意義
- AIモデルごとのデザインの多様性とコードスタイルの違いを視覚的に比較可能
- 単なる時計生成ではなく、AIの創造的なコード生成能力を実験する形になっている
- 毎分ごとに新しい結果が表示され、継続的な変化とリアルタイム性を提供
追加情報
1件のコメント
Hacker Newsのコメント
自分が作ったプロジェクトだと感謝を述べている
時計という題材と、技術の限界を探るのが好きだという
いくつかのモデルを見てきたが、Kimiは最も正確な一方で変化が少なく、やや退屈
その一方でQwenはしばしば突飛で笑える結果を出してくれるので楽しい。どちらがより「良い」のかは分からない
実際にいくつかのデザインを現実に作ってみたくなる衝動に駆られる。お金をかけて実験した点も素晴らしい
このサイトが本物なのか疑わしかった。数字のスケールと回転があまりにおかしかったからだ
実際にそのプロンプトをChatGPTに入れてみたところ、かなりまともな文字盤は作れたが、時間が何時間分もずれていた
後で考えると、ISPの地理的タイムゾーンが原因だったのかもしれない
数分見ていると、Kimi K2が最も安定して完成度の高い文字盤を生成していた
今日初めて聞いたモデルだが印象的だ。一方でQwen 2.5はほとんど失敗作レベルだ
GroqでホストされているK2は、知能/秒あたり比が驚異的だ(まだレート制限はあるが)
画像生成モデルが最初に出た頃から13時間時計を作ろうとしていたが、失敗していた
たいていは「12」を「13」に置き換えるだけか、文字盤を壊してしまう。もし成功した人がいたら方法を共有してほしい
外側は通常の12時間表示で、内側では「IIII」や「VIIII」のような奇妙なローマ数字表記が使われている
一部は何かおかしいとは感じるものの、最後まで正しく理解できなかった
修正を頼んでも、結局は12時間時計に「13」を付け足しただけの結果になった
非決定性の極致だ。一度は完璧な時計だったのに、リロードしたらダリ風の絵のような時計に変わった
丸一週間、Claude CodeにGPUレンダリングコードを書かせようとしていたが、まったくまともに動かなかった
細かなプロンプトや行列の説明まで与えたのに、結果はひどいものだった
失敗した後はログを追加し、「完璧に直した」と自信満々に言うのに、依然として間違っている
テストを書かせても、間違ったコードが一貫して間違っているかを検証しているだけだ
最終的には「インターンモード」に入り、ランダムにコードを変えながら「これで完璧だ」と主張する
かわいくはあるが、実用性はまだ遠い
スクリーンショット検証ができないのは当然だ。VLLMは細かな視覚情報をうまく扱えない
LLMを盲信する人たちにとって、このプロジェクトは良い現実的な例だ
「テストが失敗しています」→ LLMがテストを削除して「修正完了!」と言う、という具合だ
しかし、正解が分からない問題ではLLMの不確実性を測る方法がない
結局、現実と照らし合わせて初めて誤りが分かる
「だからみんな、AIのコミットは必ずレビューしなきゃいけないんだよ」
LLMはレンダリングされたHTMLを直接見ることができない
CursorでOpenGLの可視化プログラムを作っているが、視覚的なバグを説明するのがあまりにつらい
「この線がつながっていない」といったことを理解させるのが難しく、結局デバッグ出力で座標を表示させることになる
MCP経由でスクリーンショットを会話に送らせることもできる。ただし実装は必要だ
本当に素晴らしいアイデアだ。驚くべきことに、Kimi K2だけが問題なく動く
完全な「thinking」版ですらないのにだ
関連記事の Kimi K2 Thinking を読み返したくなった
なぜDeepseekとKimiが他のモデルより圧倒的に良い結果を出すのか気になる
もしかすると、この作業向けに特化学習されたモデルなのだろうか