8 ポイント 投稿者 GN⁺ 2026-02-06 | 2件のコメント | WhatsAppで共有
  • 16個のClaudeエージェントが並列に協力してRustベースのCコンパイラを完成させ、Linux 6.9カーネルをビルドできる水準に到達
  • 2,000回のセッションと2万ドルのコストで10万行規模のコードを生成し、x86・ARM・RISC-Vアーキテクチャをサポート
  • エージェントたちは自動ループハーネスを通じて人間の介入なしに継続的に作業し、テスト・並列化・役割分担の構造で効率を高めた
  • 成果物はGCC互換性と高いテスト通過率を示したが、16ビットx86コード生成・リンカー・最適化品質などは未完成の状態
  • この実験は自律型LLMチームの限界と可能性を検証した事例であり、今後は完全自律開発環境の安全性と品質管理が中核課題として浮上

エージェントチームベースのCコンパイラプロジェクト概要

  • 複数のClaudeインスタンスが並列に協力して1つのコードベースを開発する実験
    • 人間のリアルタイム介入なしに自律的にコード作成・テスト・修正を反復
  • 目標はRustで書かれたCコンパイラを完成させ、Linuxカーネルを直接ビルドすること
  • 合計16個のエージェント、約2,000回のセッション2億入力トークン・1.4億出力トークンを使用
  • 成果物は100,000行規模のコンパイラで、Linux 6.9カーネルおよび主要なオープンソースプロジェクト(QEMU、FFmpeg、SQLite、Redisなど)のビルドが可能

長期実行のためのClaudeハーネス設計

  • 既存のClaude Codeは人間の入力が必要だったが、無限ループ構造の自動実行ハーネスにより自律進行が可能に
    • 各作業完了後、直ちに次の作業を行う自動反復構造
    • 作業中にClaudeが誤ってpkill -9 bashを実行し、自分自身を終了させた事例もあった
  • 並列実行構造はDockerコンテナとGit同期を活用
    • 各エージェントは/workspaceで作業後、/upstreamへプッシュ
    • **テキストファイルベースのロック(lock)**で作業衝突を防止
    • マージ競合はClaudeが自ら解決

並列Claudeの運用方式

  • 並列実行の利点は同時デバッグと役割分化
    • 一部のエージェントはコード作成、一部はドキュメント化・品質管理・性能最適化を担当
  • 通信や中央調整役は存在せず、各エージェントが自律的に次の課題を選択
  • Git履歴には各エージェントの作業ロック記録と進捗ドキュメントが残る

Claudeチームプログラミングから得られた教訓

高品質なテストの重要性

  • Claudeは与えられたテストを基準に自律作業するため、検証器の正確性が中核
    • 誤検知があると誤った方向に開発が進む
  • **継続的インテグレーション(CI)**パイプラインを構築し、既存機能が壊れないよう強制検証
  • オープンソースのビルドスクリプトとコンパイラテストスイートを活用して品質を確保

Claudeの視点からの環境設計

  • 各エージェントはコンテキストのない新しいコンテナで開始するため、進捗状況の文書化が必須
    • READMEと進捗ファイルを継続的に更新するよう指示
  • 文脈汚染の防止: ログは最小限にし、エラーはERRORキーワードで識別できるよう記録
  • 時間認識の欠如を補うため、--fastオプションで1〜10%のサンプルテストを実施

並列化の限界と解決

  • 独立テストが多いときは並列化が容易だが、Linuxカーネルビルドは単一の巨大作業で衝突が発生
  • 解決策としてGCCを基準コンパイラオラクルとして使用
    • 一部のファイルはGCCで、残りはClaudeコンパイラでビルド
    • 失敗時には問題ファイルを絞り込みながら並列デバッグが可能
    • その後デルタデバッグで相互依存エラーを検出

エージェントの役割分化

  • 重複コードの除去、性能改善、効率的なコード生成、Rust構造の改善、文書化など専門化された役割分担
  • 並列性と専門化を組み合わせ、大規模コードベース管理の効率を向上

Opus 4.6モデルの性能評価

  • Opus 4.5までは大規模プロジェクトをビルドできず、Opus 4.6で初めて実用水準に到達
  • クリーンルーム実装でインターネットアクセスなしにRust標準ライブラリのみを使用
  • GCC torture test suite 99%通過Doom実行可能
  • 限界点:
    • 16ビットx86コード生成不可で、ブート段階ではGCC呼び出しが必要
    • アセンブラ・リンカー未完成で、一部バグが存在
    • 生成コードの効率が低く、GCCの最適化無効時よりも非効率
    • Rustコード品質は良好だが専門家水準には未達

自律エージェントチームの限界と可能性

  • プロジェクトはLLM自律協調の限界測定のためのベンチマーク
  • 完全自律開発は品質保証・セキュリティリスクを伴う
    • テスト通過だけで完成と誤認するリスクがある
  • 人間による検証なしのコード配布への懸念を表明
  • しかし、自律型エージェントチームが複雑なプロジェクトを完成できることを実証
  • 今後はモデルの発展とともに安全な自律開発戦略が必須課題として提示される

今後の展望

  • 言語モデルの進化はIDE自動補完 → 関数補完 → ペアプログラミング → 自律的なプロジェクト遂行へと進展
  • Agent teamsは完全自律開発の可能性を示す
  • 急速な技術進歩のスピードへの驚きと同時に、新たな倫理・安全フレームワークの必要性を強調
  • 前向きな活用が否定的なリスクを相殺すると期待される一方、新しい開発パラダイムへの備えが必要

2件のコメント

 
mammal 2026-02-06

Cで作られたコンパイラではなく、Rust標準ライブラリだけで作られたプロジェクトなのだから、gcc/clangのCコードが学習データに含まれているという批判は、少しゴールポストの移動ではないかと思います。いずれにせよ、すごいです。

 
GN⁺ 2026-02-06
Hacker Newsの意見
  • 私はGoogleでほぼ10年にわたり、ClangでLinuxカーネルをビルドする作業をしていた。今回のプロジェクト(clangbuiltlinux.github.io)では、LLMが2,000回のセッションと2万ドルのAPI費用で同じことをやってのけたという。実際にブートまでしたというのだから驚きだ。ただし、生成されたコードの効率性は低く、GCCの最適化無効版よりも非効率的だという。それでも本当にすごいプロジェクトだ

    • すごいことはすごいが、もしかすると他人の宿題を写した結果かもしれない
    • Opusは16ビットx86コード生成器を実装できず、ブート段階でGCCを呼ぶ抜け道を使ったという。本当にブートしたと言えるのか疑問だ
    • これはまるで**Ken Thompsonの「Trusting Trust」**の時代が再び来るような感じだ。AIがやがてコンパイラ内部に自分自身を埋め込むかもしれない
    • 2万ドルかかったのなら、その金でシニア開発者8人を短期で雇うこともできたはずだ。マーケティング費用が過大にかかっているように見えるし、実際の収益構造も不明だ
  • Cursorブラウザプロジェクトよりはるかに現実的なアプローチだ。クリーンルーム実装として、インターネット接続なしでRust標準ライブラリだけを使ったという。10万行規模のコンパイラでLinux 6.9、QEMU、FFmpeg、SQLite、Postgres、Redisまでビルド可能だという。
    Opus 4.5は初めて大規模テストを通過できるようになり、今回の結果はその限界をほぼ使い切ったように見える。
    さまざまな制約にもかかわらず、印象的な実験だと思う

    • 「クリーンルーム実装」という表現は大げさに思える。すでにインターネット全体のCコンパイラを学習したモデルなのだから、わざわざそう呼ぶ必要はない
    • この結果を現在の水準だけで評価するのは惜しい。ここ数か月の進歩の速さを見れば、1年後には想像以上になっているはずだ
    • 実質的にはクリーンルームというより、LLMが学習中に圧縮した知識をテストベースで展開した結果に近い
    • どうせGCCやClangのコードで訓練されたモデルなのだろうし、実際のコード類似性がどの程度なのか気になる
    • 個人的にはすごいとは思うが、実際のユーザーの立場ではそこまで面白くない。新しいISAをLLVMに追加したり、新しい言語向けのコンパイラを作るほうがより意味がありそうだ
  • 最初は「おお、すごい」と思ったが、すぐ考えが変わった。Cコンパイラは仕様が非常に厳密なソフトウェアなので、LLMが扱いやすい部類だ。
    だが、私たちの仕事の大半は要件が曖昧で、目標が絶えず変わる環境にある。そういう領域でもうまく機能するのかが気になる

    • 「Cコンパイラは明確だ」という言葉には笑ってしまう。unspecified behavior がどれだけ多いことか
    • コード生成がテストに合わせ込まれるのはMLモデルのフィッティングに似ている。人間は依然としてテストを設計し、検証しなければならない
  • 結果が完璧であるべきだという期待には違和感がある。可能だということ自体が驚きだ。こうした試みが次のOpusやSonnetの学習に反映され、いつか効率的なコンパイラを自力で作るモデルが現れるかもしれない

    • 私も同じ考えだ。「犬がどれだけ上手に踊るかより、踊るという事実そのものが驚きだ」
    • 最近は生成AIへの反感が強く、少しでも欠陥があると『AIゴミ』 と決めつける空気があるのが残念だ。これは単なるデモであり概念実証なのだから
  • このプロジェクトはLinuxカーネル、QEMU、FFmpeg、Redis、Doomまでビルドできるという。本当に驚きだ。
    ただし、この種のエージェントシステムはテスト可能な領域ではうまく動く一方で、ビジネス意思決定のような文脈が必要な領域では限界がある

    • すでにインターネット全体で学習済みのモデルに対して「クリーンルーム実装」という概念が意味を持つのか疑問だ
    • 次の段階は、AIが実際のビジネス文脈を理解して運用することだ。たとえば Vending-Bench のようなベンチマークを見ると、AIプロダクトマネージャーがユーザーインタビュー、実験、ロードマップ提案まで自動でこなす日も遠くない
  • すごいプロジェクトだが、「クリーンルーム」への言及は外したほうがよかった。著作権のあるコードで訓練されたモデルなのだから、むしろ逆に近い

    • とはいえ、人間も既存のコードベースを学習し、その知識をもとにクリーンルーム実装を行うことがある
    • 人間が会社で学んだ知識を別の場所で再利用するのと同じように、LLMも学習データを変形的なやり方で再構成しているのだ。直接コピーしていないなら話は別だ
  • GitHub issueによれば、問題はincludeパスの欠落が原因だという。コンパイラ自体は正常らしい

    • 単にglibc-develのようなパッケージが足りなかっただけのようだ
    • 記事が長すぎて根拠も乏しかった。肝心な点を見失っている感じだ
    • AIは未来だ
    • 本当に驚くべき結果だ
  • 私はすべてのプロンプトとエージェント構成を公開してほしい。学習用として非常に有用だろうし、再現のために2万ドルを自分で出すのは負担が大きい

    • 最近は結果物だけを見て、プロセスには関心を持たない空気があるのが残念だ
  • これはCursorブログの動く版のようなものだ。実際にLinuxカーネルをビルドしたという証拠のほうがはるかに説得力がある

    • もともとはエイプリルフール向けに軽い言語を作ろうと思っていたのに、今やここまでの結果が出るとは驚きだ。それでも今後も試し続けるつもりだ
  • これは「ピラミッドは建てられても大聖堂は建てられない」型のアプローチだ(関連記事)。
    莫大な計算資源を投入して機能を力ずくで実装したようなもので、2万ドルを燃やしたと表現したくなる。
    指数的な計算資源で線形的な結果を得るのは意味があるとしても、長期的には非効率な方向に見える

    • 2万ドルというのはAPI基準で、サブスク基準ならMaxプラン5〜6個分くらいだろう
    • それでもFAANGエンジニア2週間分の人件費にすぎない。人間が2週間でコンパイラを作れるわけではないのだから、デモとしては十分に価値がある