Antigravity 2.0、OpenSCAD建築3D LLMベンチマークで首位

(modelrift.com)

3 ポイント投稿者 GN⁺ 2026-05-23 | 2件のコメント | WhatsAppで共有

OpenSCAD Pantheonベンチマークは、参考画像2枚と短いプロンプトだけで、AIコーディングツールが建築物をパラメトリックCADコードとして実装できるかを試す
Google Antigravity 2.0 / Gemini 3.5 Flash Highは品質4.5/5で最高点を獲得し、実際のPantheonの寸法・碑文・内部の格間天井パターンまで実装した
Codex 5.5 Highはディテール密度が高かったが、PNGプレビューと最終STLの不一致で減点され、Sonnetは既存の自律実行の中で最も整ったモデルを出した
Cursorは最速だったが品質は最も低く、ModelRift/Gemini Flash 3.0は視覚フィードバックを加えたヒューマン・イン・ザ・ループ方式で3.8/5に到達した
すべてのシステムがOpenSCAD CLIレンダリングまで実行したが、ボトルネックはツールアクセスではなく、幾何判断と最終メッシュ検証だった

ベンチマークの目的と課題

ModelRiftはすべての3Dモデルに対してOpenSCADコードを生成するため、LLMの空間幾何処理能力が実際のモデル品質に直結する
今回のテストは、複数のAIコーディングツールに同じ課題を与え、参考画像と短いプロンプトをもとにPantheonをOpenSCADで実装させた小規模な実戦ベンチマークだった
目的は、建築参考資料をパラメトリックCADコードに変換し、OpenSCAD CLIでPNGプレビューをレンダリングしながら反復改善する能力を確認することにあった

プロンプトでは、Pantheonのロトンダ、ドーム、ポルティコ、柱、ペディメント、正面ディテールを含めるよう求めた

see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png)  and iterate until you are happy with the result.

PantheonとOpenSCADを選んだ理由

Pantheonは単純な difference(), cube(), cylinder() 文法テストを超える課題でありつつ、OpenSCADが扱いにくい有機的な彫刻やキャラクター的なジオメトリでもない
主要構造は円形のロトンダとドーム、中央のオクルス、直線的なポルティコ、柱、段状の基壇、三角形のペディメントで構成されており、結果の差を比較しやすい
弱い結果でもドーム付きの建物のようには見えるが、良い結果は丸いドラム、長方形のポルティコ、ドームリング、正面ファサードの関係をより正確に合わせる必要がある
OpenSCADはモデルがプレーンテキストコードで語彙が小さく、LLM生成ジオメトリの対象として適している
「半径の周囲に28本の柱を繰り返す」や「ドームからオクルスを差し引く」といった指示をソースコードで直接表現できる
成果物は検査可能で再現可能、かつ修正しやすく、柱間隔の誤りも隠れたシーン状態ではなくパラメータやループ修正で直せる
ModelRiftがOpenSCADを基盤に構築された背景は Why we built ModelRift on OpenSCAD にまとめられている
欠点は、OpenSCADが彫刻ツールではないことであり、構成型・パラメトリック・ハードサーフェスのオブジェクトに最も適している

全体結果

スコアはこのベンチマーク内での相対評価であり、一般的なモデル順位ではない
時間スコアはプロジェクト公開時刻ではなく、観測された実装時間を反映している
品質スコアは保守的に付けられており、最良の結果でも完璧なPantheonモデルには近くない
ツールとモデルごとの結果:
- Cursor 3.5 / Composer 2.5: 時間5/5、品質1.4/5。最速だったが最も弱く、ドームとポルティコの大きな形以外では、比率・色の制御・建築ディテールが不足していた
- Codex 5.5 High: 時間4/5、品質3.0/5。エンタブラチュアの碑文まで入れるほどディテール密度は高かったが、最終STLがPNGプレビューと異なっていたため減点された
- Claude Code 2.1 / Opus 4.7: 時間2/5、品質3.0/5。Cursorより構造とポルティコ、段状基壇は明確だったが、色が過度に均一で、強い結果ほどの説得力はなかった
- Claude Code 2.1 / Sonnet 4.6: 時間1/5、品質3.4/5。既存の自律実行の中で最ももっともらしい全体印象とバランスの取れた比率を示したが、実装時間は最も長かった
- Google Antigravity 2.0 / Gemini 3.5 Flash High: 時間1/5、品質4.5/5。実際のPantheonの寸法と碑文を用い、自律エージェントの中で唯一、内部の格間天井パターンを実装した
- ModelRift / Gemini Flash 3.0: 時間1/5、品質3.8/5。ModelRiftの反復注釈ワークフローを使った非自律結果の中で最高で、Claude Codeの約2倍の時間がかかった

ワークフロー観察

クライアントのワークフローはモデル自体と同じくらい重要だった
Codex Desktopは、LLMがコンテキストに取り込んだ画像を会話内に直接表示し、視覚的CAD作業で参考資料を使っているか確認しやすかった
Cursor AgentとClaude Code CLIも画像を利用できたが、処理過程での視覚コンテキストはそれほど明示的ではなかった
テストしたすべてのシステムはローカルのOpenSCADツールチェーンを扱え、macOS PATH 上のOpenSCADを呼び出してPNGプレビューをレンダリングした
ボトルネックはツールアクセスではなく、幾何判断、カメラ設定、プレビューモデルをクリーンな最終メッシュとして書き出せるかどうかだった
Codexは参考画像、OpenSCADファイル編集、生成されたプレビューを同じスレッドに表示し、反復過程を追いやすかった
公開ベンチマーク後、Codexは屋根とエンタブラチュアのエクスポート問題を修正しようとしたが、最終比較は元の提出モデルを基準にしている
Cursorは最速のインタラクションループと有用な計画・OpenSCADコード並列UIを提供したが、出力品質は遅い実行より見劣りした
Claude Codeはターミナル中心で画像を読み、OpenSCADコマンドを反復したが、モデル生成の過程は視覚的には見えにくかった

Google Antigravity 2.0 / Gemini 3.5 Flash High

Explore 3D result
この実行は、GoogleがI/O 2026でAntigravity 2.0を発表し、Gemini 3.5 Flashを2026年5月19日に公開した直後の2026年5月22日に追加された
結果はこのベンチマークで最良の完全自律モデルであり、Flash 3.5に対する初期シグナルも前向きだった
Antigravity 2.0は、計画、作業実行、プレビューを備えたエージェント優先のデスクトップアプリに近く、以前のIDE体験を望むユーザーには、ダウングレードや旧アプリ固定以外に滑らかな復帰経路がなく、リリース週には批判も多かった
Flash 3.5 Highは参考画像を目視するだけでなく、実際のPantheonパラメータも検索した
計画とコードでは、ロトンダ、ドーム、ポルティコ、オクルスについて明示的な寸法を使い、それをパラメトリックなOpenSCAD値に変換した
```
Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD.
```

Pantheonの内部構造も反映するため、カットアウェイモードを提案した

To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`.

最も強いディテールは天井だった

The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing.

Antigravityは自律エージェントの中で唯一、オクルス越しに見える反復四角形の格間天井パターンを実装した
外部結果には、高速なOpenSCAD出力で省略されがちな要素も含まれていた
- 灰色と赤色が混ざった柱の材質
- 読める碑文
- 段状の屋根リング
- ロトンダ、中間ブロック、ポルティコ、ドームの広い関係性
品質スコアは4.5/5、速度スコアは1/5だった
速くはなかったが、このベンチマークにおける自律生成の上限を押し上げ、Flash 3.5は計画・レンダリング・検査・修正ツールと組み合わせると空間コード生成で有望に見える

ModelRift / Gemini Flash 3.0

Explore 3D result
この結果はModelRiftとGemini Flash 3.0を使ったヒューマン・イン・ザ・ループ過程で作られたもので、最初の4つの実行のような自律単一パスベンチマークではなかった
ワークフローには約10分かかり、Claude Code時間の約2倍だったため、同じ1/5の速度スコアとなった
このベンチマークはGemini 3.5 Flash公開直後の2026年5月21日に実行された
Antigravityの結果は3.5 Flashの強さを示したが、ModelRiftのデフォルトモデル選択では品質に加えてコストと遅延も考慮する必要がある
GoogleのGemini API価格では、Gemini 3.5 Flash標準価格を入力100万トークンあたり1.50ドル、出力100万トークンあたり9.00ドル、Gemini 3 Flashを入力0.50ドル、出力3.00ドルとしている
Gemini 3.5 Flashは前世代のFlashと比べて3倍のコスト増であり、さらに古いGemini 1.5 Flash時代のコスト基準よりもかなり高い
品質は3.8/5で、既存の自律実行バッチより良かった
モデルは完璧ではなかったが、ポルティコ、柱配置、屋根、ドームリブ、全体のマスがより一貫していた
重要な違いは、現在のレンダー上に視覚フィードバックを直接重ねられた点だった
ModelRiftのワークフローは、モデル生成、ブラウザ検査、レンダー上への視覚ノート記入、AIへのOpenSCAD修正依頼を繰り返すよう設計されている
空間CAD作業では、このループはテキストだけで指示する方式よりはるかに精密である

主な自律実行の結果

Codex 5.5 High
- Explore 3D result
- Codex 5.5 Highは最も密度の高いモデルを生成した
- 含まれた要素は、ロトンダ、ドームリブ、オクルス、層状に積まれた石材バンド、前面ポルティコ、柱、周辺基壇ディテール、エンタブラチュアのテキストだった
- エンタブラチュアには M AGRIPPA L F COS TERTIVM FECIT が入っていた
- OpenSCADでのテキストは、配置、押し出し、方向指定、薄い厚みの維持が必要で、モデリング上は厄介な要素である
- 反復中のレンダープレビューは、最終的に書き出されたSTLより良く見えた
- 最終結果では、エンタブラチュアとポルティコ屋根周辺に問題のある天井のような表面が生じ、正面アセンブリの印象が変わってしまった
- Codexは強い空間推論と高いディテール志向を示した一方で、プレビュー精度が最終メッシュ精度と同一ではないという書き出しリスクも露呈した
- 公開されたSTLではなく最良のPNGプレビューを基準にしていれば、構造とディテールはAntigravity 2.0のすぐ下に置ける水準だった
- 3.0/5というスコアは、モデルの設計意図よりも最終エクスポートとレンダリングの不一致に対するペナルティが大きく作用している
Claude Sonnet
- Explore 3D result
- Claude Sonnetは既存の自律実行バッチの中で最も整ったモデルを生成した
- Codexほど微細なディテールには踏み込まなかったが、シルエットはよりきれいで、主要な建築部品がより自然に噛み合っていた
- ドーム、ドラム、ポルティコ、柱配置は、隣接するプリミティブの寄せ集めではなく、一つの建築として読めた
- 比率もより節度があり、Antigravity実行以前では最も強い完全自律結果だった
- Claude CodeはこのベンチマークでCodexより約2〜3倍遅く、Sonnetは良い品質にもかかわらず最低の時間スコアを得た
- 品質スコアは3.4/5で、依然としてプロダクション品質の建築復元ではなく近似モデルの域にとどまる
Cursor Composer
- Explore 3D result
- CursorとComposer 2.5の組み合わせは最速の実行だったが、結果は最も弱かった
- ロトンダ、ドーム、ポルティコ、柱という大きなジェスチャーは押さえていた
- Pantheonをそれと分かるものにする素材の抑制と建築的ニュアンスは取りこぼした
- 出力は完成モデルというより単純化されたプレースホルダーに近く、公開前に大幅な手直しが必要な水準だった
Claude Opus
- Explore 3D result
- Claude OpusはCursorとSonnetの中間に位置した
- Cursorより完成度の高い建物を作り、ポルティコと段状基壇もより明確だった
- ただし出力は均一すぎて、Sonnetほど説得力はなかった
- 構造はあったが、視覚的階層の判断が不足していた
- ほぼすべての要素の色と重みが同じで、ディテールが視線を導くのではなく互いに競合していた
- 更新後のスコアは3.0/5で、最初の表の版より高く評価されるに値したが、SonnetとAntigravityの後ろにとどまった

重要な教訓

OpenSCADは対象言語として十分に持ちこたえた
- 文法が小さく、出力は決定的で、CLIが反復ループで検査可能なプレビューをレンダリングする
- LLMはOpenSCAD利用に特別な足場を必要としなかった
ツール利用はボトルネックではなかった
- すべてのエージェントがmacOS PATH 上のOpenSCADを呼び出し、PNGプレビューをレンダリングした
- 難しかったのは配管ではなく、幾何判断だった
速度は品質を予測しなかった
- Cursorは最速だったが最も弱い結果を出した
- Sonnetは既存の自律実行で最も時間がかかったが、最も整ったモデルを出した
- Antigravityも遅かったが、Gemini 3.5 Flash Highは計画と反復の時間を得た後で最高の自律結果を出した
- ModelRift/Gemini Flash 3.0はより時間がかかったが、視覚フィードバックのおかげで既存の自律バッチより高品質に到達した
プレビューとエクスポートは同じではない
- Codexはレンダーループでは強く見えたが、最終STLではポルティコ屋根周辺にジオメトリ問題が生じた
- 印刷対象モデルでは、プレビューだけでなく書き出されたメッシュも別途検査する必要がある
どの出力も忠実な建築モデルとして通る水準ではなかった
- Codexの碑文は良いディテールだった
- Sonnetの比率は一貫していた
- Antigravityの格間天井は最も驚かされたディテールだった
- ModelRift/Gemini Flash 3.0の結果は、人が視覚的に調整すると品質がどう上がるかを示した
参考画像2枚と短いプロンプトだけで、すべてのシステムがCADコードを人手で直接書かずに、有効でレンダリング可能なOpenSCADに到達した
ツール間の品質差は大きかったが、出発点自体は予想より高かった
完全自律生成は、こうした作業における正しいワークフローではまだない
- ModelRiftでは反復作業に引き続きAnnotation Modeを使っている
- 3Dモデルのスクリーンショットに矢印やノートを直接描き込み、AIに返す方式である
- 空間ジオメトリでは、最上位モデルを使っていてもヒューマン・イン・ザ・ループ段階が重要である
- モデルは大きなマスを合わせられても、柱位置やドーム比率を外すことがある
- レンダー上で問題を直接指し示す方法は、テキストで説明するより速く正確である

2件のコメント

xguru 2026-05-24

私の個人プロジェクトの1つで、Codexを使って GPT 5.4 で OpenSCAD を試したところ、少し迷いがちな傾向があったので、モデルが改善されるまで待っていましたが、また試してみないといけませんね。

GN⁺ 2026-05-23

Hacker Newsのコメント

先週、妻の自転車をMarketplaceで買ったのですが、状態は良かったものの、内装ケーブルルーティング用のゴムグロメットが1つ欠けていました
カプセル形の穴の写真を単体で、さらにデジタルノギスで長辺と短辺を測った写真も添えてClaudeに入れたところ、短いプロンプトだけで、すべての寸法がパラメータ化されたOpenSCADモデルを作ってくれました
TPUで修正なしに出力したところ、初回からほぼ完璧で、Claudeがx/y寸法から0.3mm引くようにしていたのを0.1mmに下げたらぴったり合いました。古代ローマ建築よりはるかに簡単な形状ですが、こんなに簡単にできるのはやはりすごいです
- CADは個人的に参入障壁が高くて手を出してこなかった技術の一例でしたが、今ではせいぜい不慣れなレベルでも簡単な作業ならこなせるようになった感じがあります
  OpenSCADとLLMで3Dプリンタ用の簡単な機能部品を作った経験も似たようなもので、モデルがReactコード生成ほどうまくはないこともわかっていますし、私自身も熟練オペレーターとは正反対です。それでも、趣味レベルで新しい技術を学び始めるきっかけになったのは素晴らしいです
- Claudeはすべての寸法を与えればうまくやれますが、推測は苦手です
  本当の魔法は、寸法1つや定規入りの写真1枚だけを渡してAIが残りを推定する瞬間でしょうが、少なくとも今のClaudeは推測にかなり弱いです
- 最近、モデルに3Dフォーチュンクッキーを作らせてみましたが、Claudeはthree.jsで、GeminiはOpenSCADで試したものの、どちらも概念をきちんと捉えられず、近いところにも行きませんでした。意外と複雑な形状のようです
- こういう小さな機能性プリントこそ、OpenSCADとLLM生成が真価を発揮する領域です
- サポートが不要になるよう最適化してくれるのですか?
「AntigravityがPantheonの象徴的な内部天井パターン、つまりオクルス越しに見える繰り返しの正方形コッファー天井を実装した唯一の自律エージェントだった」というのは本当に印象的です
3Dモデルを見ていたのに、この一文を読むまで建物の内部を見ることすら思いつきませんでした
show_cutawayを有効にした3Dモデルはこちらです: https://modelrift.com/models/pantheon-benchmark-antigravity-...
- モデルを作るために、プロンプトに明示されていない外部情報を使ったことが良いのか悪いのか判断がつきません
  「Pantheon」が欲しいのなら確かに正しい振る舞いですが、製図担当者やエンジニアならこういう成果物を受け入れにくい気がします
- たまたま内部を見たのですが、外側よりむしろ知性と努力がよく感じられました
Antigravityがどんなベンチマークで1位を取ったのかは知りませんが、Gemini CLIを強制的に置き換えた私のAntigravityは、使うたびにブラウザログインを要求し、Antigravity IDEはまったく更新されません
できれば何かで1位を心配する前に、まず最低限受け入れ可能なデプロイ品質を満たしてほしいです
実際のタイトルは「OpenSCAD LLM Benchmark: Building the Pantheon」です
- 同感です。GoogleのAI製品でいちばん懸念しているのは、ログイン、課金、アップグレード、製品終了をめぐる終わりのないUXの苦痛です
  それでもLLMモデル自体は良く、Antigravity 2.0もそこまで悪くはありません。ただ、多くの人と同じようにAntigravity 1.0の設定やプロジェクトを失ったなら話は別です
- Google I/Oを見た後、むしろGoogleの実行力への確信が薄れました
  Gemini 3.5 Flashは奇妙です。カットオフは古く、ある面では3.1 Proより優れているのに、別の面では劣っており、時には安く、時には3.1 Proより高いです
  Antigravityは放置されたように見え、人々は終了を推測していましたが、実際には新しいAntigravityへ全員を移行させることで、ある程度その通りになりました
  Googleは組織図をそのまま製品として出しているようで、AI製品が多すぎるのに、どれも同クラス最高には見えません。たとえばGoogle DocsのGemini統合はClaudeに劣ります
  期待していたのは「HaikuコストでOpus級の知能」か「Gemini 3.0価格でSonnet級の性能」のモデルでした。どちらか一方でも出ていれば主力モデルかつClaude/Codexの競合になっていたでしょうが、どちらも得られませんでした
- Claude CodeとIntelliJを使っているので、AntigravityがVS Codeを捨てたと不満を言う人がなぜこんなに多いのかよくわかりません
  Antigravity CLI + VS Codeや他のIDEとの組み合わせでカバーできない点が何なのか気になります
- 好きで、ある面ではClaude Codeより良いと思っていたGemini CLIから強制アップグレードされたのも良くありませんでした
  しかも水曜日に来たメールが「Google One AI Proをご購読いただきありがとうございます。ただし今からアカウントに制限を追加します。どうしようもありません」という調子で、本当に不快でした。以前はAI Proのサブスクはコスパが良いと褒めていたのですが
- ワークフローが壊れることこそ、Antigravityを気に入っていたのに採用しなかった主な理由です
  Googleが投資しているのは歓迎ですが、歳を取るほど自分のワークフローを守るようになります
OpenSCAD向けにあらゆるモデルと設定でかなり多くのベンチマークを回してきましたが、気づいたことはこうです
モデルにはばらつきがあり、ある種の3Dモデルでは優秀でも、別の種類ではそうでないことがあります
私の経験ではGeminiモデルが最もばらつきが少なく、画像理解も最も優れていました
Geminiモデルは最も創造的でもありますが、精密なCAD部品が欲しいなら、むしろ望ましくないかもしれません
全体として、このベンチマークは多くを証明していません。3Dモデル1つと試行1回では不十分だからです。普通は少なくとも12モデルをそれぞれ3回ずつ生成してテストしますが、実際にはもっと多くやるべきです。ただ、個人開発者にはコストが高すぎます
それでも公開してくれたことには感謝していますし、Flash 3.5がどんな性能を見せるのか近いうちに回してみるつもりです
- OpenSCADは曲線を扱えないので役に立たないと思います。なぜこんなに注目され続けるのかわかりません
LLMを有効な3D CADモデルを生成する能力で評価するのは興味深いベンチマークです
OpenSCADは完全にコード依存なので、こうした評価に特によく適しています
実際にやってみると、かなりひどい体験でした。最初の試行ではそこそこ良い下書きが出ることもありますが、それを「デバッグ」し始めると、非常にもどかしいセッションの末に、モデルが結果をきちんと「見られない」ことに気づきます
つまり、まったく反復改善ができません
たいていの実行ツールやハーネスは画像を処理する前に縮小しており、その過程で、特にワイヤーフレーム画像では推論が難しくなるほど細部が失われているようです
私の使い方が悪いのかもしれませんが、このテストではその部分を実際には検証していませんでした。ただの一発勝負で、そういうやり方はかなりすぐ破綻します。特に作ろうとしているものの参照写真がない場合はなおさらです
現実世界のオブジェクトを1つ作って、それをベンチマークだと宣言するのは堅牢なツール評価のやり方ではありません
Iron Chefのようにギリシャ建築テーマを与え、審査員団が勝者を決める形であるべきです。今のところ、どのツールが主観的に最もそれらしいPantheonを作ったかを見ている程度です
- これはベンチマークというより「これ、いいね!」に近いです
  単一の、きちんと定義されていない例題を、最終的なユースケースもなく、完全に主観的な採点基準で評価しています
Autodeskを空売りするには、まだ早すぎます
ちなみにAutodeskは12月にFusion向けのエージェント型アシスタントを出しましたが、6か月経った今でもかなり微妙です
- ほとんど滑稽なくらいひどいです
  ここ数週間、3Dプリント用の簡単な部品をいくつか設計する必要があって使ってみましたが、それぞれタイムライン上で4操作ほどで済む程度のものだったにもかかわらず、Fusionの用語に合わせて手順を段階的に詳しく書いても、欲しいものに近いものすら作れませんでした
  今では単純な基本立体ですらまともに作れるのか自信がありません
- 先月リリースされたFusion MCPは試しましたか? https://aps.autodesk.com/blog/bringing-fusion-claude-creativ...
- まだ先は長いですが、いずれは到達すると思います
いまひとつ納得できません。Pantheonは最も象徴的な歴史的建築物の1つで、関連書籍も多く、学習に使われたであろう既存の写真や公開モデルも大量にあります
提供された参照だけに基づいて匿名の構造物をモデリングするベンチマークのほうが面白そうです。LLMがToDoアプリを一発で作るのを見るような、表面的な魔法に感じます
育児向けの技術機器を作っていて、その外装は完全にAI生成でした
3Dモデリングをどこから始めればいいのかまったくわかりませんでしたが、LLMがこれも他のものと同じくコードなのだと教えてくれました
奇妙なことに、Opus 4.5は一発で完璧に作ってくれたのですが、それは性能劣化の騒ぎの直前で、その後は外装をほんの少し修正するだけでも非常に難しくなりました
Opusは、形状を頭の中で専門的に回転させられるモデルから、自分が何を扱っているのかすらわかっていないモデルに変わってしまったようです
- 私の外装も似たようなものでした: https://quill.lorehex.co/feather
  ただし4.7は修正作業には問題ありませんでした