AlphaEvolve: 複数分野へ影響力を拡大するGeminiベースのコーディングエージェント
(deepmind.google)- AlphaEvolveはGeminiベースのコーディングエージェントで、高度なアルゴリズム設計から出発し、数学・計算機科学の公開問題、Googleインフラの最適化、科学・産業の課題へと適用範囲を広げている
- ゲノミクスでは DeepConsensus を改善し、変異検出エラーを 30%削減 し、電力網では AC Optimal Power Flow 問題の実行可能解の発見率を 14%から88%以上 に高めることに貢献した
- 地球科学では Earth AI モデルの最適化を自動化し、山火事・洪水・竜巻など20カテゴリの自然災害リスク予測の全体精度を 5%向上 させ、量子物理では Willow quantum processor で従来のベースラインよりエラーが10分の1の量子回路を提案した
- 数学では Terence Tao とともに Erdős問題 の解決に貢献し、Traveling Salesman Problem と Ramsey Numbers の下界改善、解釈可能な神経科学モデル・ミクロ経済学・暗号学・合成データ・AI安全緩和策にも使われている
- Googleインフラでは次世代 TPU 設計、キャッシュ置換ポリシー、Google Spanner の LSM-tree コンパクションヒューリスティクス、コンパイラ最適化に活用され、商用適用では Klarna の学習速度2倍、FM Logistic の経路効率 10.4%改善、Schrödinger の MLFF 学習・推論で約 4倍の高速化 を達成した
社会的影響と持続可能性
-
ゲノミクス
- AlphaEvolve は Google Research が開発した DNA シーケンシング誤り補正モデル DeepConsensus の改善に使われ、変異検出エラーを 30%削減 した
- この改善により、PacBio の科学者は遺伝データをより正確かつ低コストで分析できるようになった
- PacBio の Aaron Wenger は、AlphaEvolve で見つけた解法がシーケンシング装置の精度を有意に高め、研究者がより高品質なデータによって、これまで見逃されていた疾患原因変異を発見できるようになると述べている
-
電力網最適化
- AlphaEvolve は AC Optimal Power Flow problem に適用された
- 学習済み Graph Neural Network(GNN) モデルが、この問題の実行可能解を見つける割合を 14%から88%以上 へ引き上げることに貢献した
- この結果、電力網におけるコストの高い後処理ステップの必要性が大幅に減少した
-
地球科学
- AlphaEvolve は複雑な地理空間データを、より信頼性が高く実行可能な洞察へ変換するために使われている
- Earth AI モデルの最適化を自動化し、山火事・洪水・竜巻など20カテゴリを集計した自然災害リスク予測の全体精度を 5%向上 させた
研究最前線の進展
-
量子物理
- AlphaEvolve の最適化により、Google の Willow quantum processor で複雑な分子シミュレーションを実行できるようになった
- 従来の一般的な最適化ベースラインよりエラーが10分の1の量子回路を提案し、初の種類となる量子コンピューティング実験の実証に即座に貢献した
- この成果は、AlphaEvolve が古典コンピュータの能力を超えるアルゴリズムを見つける未来につながりうることを示している
-
数学
- AlphaEvolve は Terence Tao のような数学者とともに Erdős問題 の解決に貢献した
- Terence Tao は、AlphaEvolve のようなツールは特に最適化問題において、候補となる不等式の反例をすばやく試したり、極値対象に関する見込みを確認したりすることで直感を大きく改善し、厳密な証明をより見つけやすくすると述べている
- AlphaEvolve は Traveling Salesman Problem や Ramsey Numbers のような古典的数学課題の下界を改善し、記録を更新している
-
他の研究分野
- AlphaEvolve の自律的発見能力は、複数分野で並行的なイノベーションを牽引している
- 解釈可能な神経科学モデルの発見、ミクロ経済学における新たな市場限界の証明、ニューラルネットワーク構成要素の進展に使われている
- ユーザープライバシーのための暗号学、合成データ生成、フロンティアAIモデル向けの主要な安全緩和策にも適用されている
- AlphaEvolve が「Tammes problem」のインスタンスを最適化した例や、追加問題の潜在的解法は公開 Gallery で確認できる
AIインフラ改善
- AlphaEvolve はパイロットテストを超え、Googleインフラの中核コンポーネントになっている
- TPU 次世代設計を最適化する定常的なツールとして使われている
- より効率的なキャッシュ置換ポリシーを発見し、以前は人による集中的な作業に数か月を要していたタスクを 2日 で達成した
- Jeff Dean は、AlphaEvolve が AI スタックを支えるハードウェアの最下層の最適化を始めており、直感に反するが効率的な回路設計を提案して次世代 TPU シリコンに直接統合されたと述べている
- AlphaEvolve は Google Spanner の Log-Structured Merge-tree コンパクションヒューリスティクスを改善し、効率を高めた
- この最適化により、元の要求に対してストレージへ書き込まれるデータ比率である write amplification を 20%削減 した
- AlphaEvolve は、ソフトウェアのストレージ使用量をほぼ 9%削減 した新しいコンパイラ最適化戦略についての洞察も提供した
商用適用の拡大
- Google Cloudとともに、AlphaEvolve を複数産業の商用企業に提供している
- 金融サービス分野では Klarna は AlphaEvolve を使って自社の大規模 transformer モデルの1つを最適化し、モデル品質を改善しながら学習速度を 2倍 に高めた
- 半導体製造分野では Substrate は AlphaEvolve を計算リソグラフィフレームワークに適用し、ランタイム速度を数倍に高め、より大規模な先端半導体シミュレーションを実行できるようにした
- 物流分野では FM Logistic は Traveling Salesman Problem のような複雑な経路問題を最適化し、従来の高度に最適化された解法と比べて経路効率を 10.4%改善 し、年間 15,000km以上 の移動距離を削減した
- 広告・マーケティング分野では WPP は AlphaEvolve で AI モデル構成要素を洗練し、複雑な高次元キャンペーンデータを扱うことで、競争力のある手動モデル最適化と比べて精度を 10%向上 させた
- 計算材料・ライフサイエンス分野では Schrödinger は AlphaEvolve を適用し、Machine Learned Force Fields(MLFF) の学習と推論の両方で約 4倍の高速化 を達成した
- Schrödinger の Gabriel Marques は、より高速な MLFF 推論によって創薬、触媒設計、材料開発のR&Dサイクルが短縮され、企業が分子候補を数か月ではなく数日で選別できるようになり、実質的な事業インパクトを生むと述べている
今後の方向性
- この1年で AlphaEvolve は多目的な汎用システムとして急速に定着しつつある
- 次のブレークスルーが、自ら学習し進化し最適化できるアルゴリズムによって主導されうることを示している
- Google DeepMind は AlphaEvolve の機能を拡張し、より広範な外部課題へ適用しようとしている
1件のコメント
Hacker Newsの意見
Antirez の "Don't fall into the anti-AI hype" [0] を思い出した
一言でまとめると、こうした 基盤モデル は「行列積をもっと速くしろ」のような、非常に高レベルでありながら非常によく定義された問題空間を最適化するのが本当に得意だ。Antirez の場合は「Redis をもっと速くしろ」だった
反応は「自分の仕事には絶対に通用しない」と「数か月かかる仕事を1時間で終えた」に分かれたが、どちらも正しいと思う。Antirez がその後も成果を出しているのは喜ばしいことだが [1]、大半の人がやっている、暗黙知が多く、人間のシステム中心で、曖昧に定義された仕事は LLM が扱いにくい、あるいはそもそもそういう用途ではなかったと考えてよいと思う
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
そのうち、あらゆる会議が録音・文字起こしされ、エージェントが曖昧さに直面したときに検索できる、よく索引付けされた場所に保存されるようになるだろう。今質問できるなら、そうした環境が整えば自分で答えを検索することもできるようになる。実際、十分に文書化された Notion / Confluence があれば、すでにそうしている。ただ、そういう組織がほとんどないだけだ
「曖昧さの特定」を強化学習させるのは、性能アルゴリズムを強化学習させるより難しいだろうが、不可能ではなく、すでに進行中だと思う。あとは時間の問題だ
非主流のアルゴリズムを新しく発明するのは苦手で、あきれるほど近視眼的な近道をねじ込んでくることが多い。まだ道具であって、道具を巧みに扱う職人ではない。これは徐々に変わるだろうし、珍しいアルゴリズムが勝てる余地もさらに減っていくだろう
平均するとどちらが勝つのか、本当に判断が難しい
AI CEO たちは AI ががんを治すと長々語るのが好きだが、実際にそうした 研究課題 に積極的に取り組んでいるのは DeepMind だけのように見える
OpenAI と Anthropic は、だいたい企業売上とコーディング売上を追っているように見える
Googler たちは Claude Code や Codex の代わりに Gemini コーディングエージェント を使うことに満足しているのか? 皮肉ではなく本当に気になる
まだ UI/UX / ツールまわりで整理中の部分や、バージョン管理システム連携、言いにくいもっと深い問題はあるが、不満の大半は実際の能力というより 変化の速度 に近いと思う
興味深いのは、社内で影響力のある何人かが Pro モデルより Flash モデルを強く好むと発言している点だ。これが本当かどうかは別として、今や「より良い」モデルが必ずしもより有用とは限らず、より速いモデルとハーネス改善の組み合わせのほうがよい折衷になる段階に来ているのが興味深い
絶えないタイムアウト、奇妙な失敗モード、モードを切り替えるたびに新しいチャットを始めなければならない問題などがある。ただ、これは Gemini モデル自体の問題というより 拡張機能 の問題に見える
VS Code 拡張の側面を除いて実際の問題解決だけを見るなら、3つのプレミアモデルはいずれも自分の用途には優れたコーディングエージェントだ
Gemini が最高のコーディングエージェントでないかもしれないが、他の仕事には非常に優れているかもしれない
ツール呼び出しの方法を完全に忘れて長時間無駄にした末に諦めたり、AGENTS.md のようなファイルにある コードスタイル指針 を完全に無視したりする
ローカルで Gemma 4 を動かした自分の経験も似ていた。ツール呼び出しを1、2回した後は、勝手気ままに呼び出し始める。つい昨日も、read_file(start, end) のようなツールを read_file(start, number_of_bytes) と再定義しておきながら、自分が間違っている可能性すら認めないのを見た
AI が自力で、あるいは少なくとも自分が動いているアーキテクチャを改善するなら、人々が言うように シンギュラリティ は近いということになる
合成データ生成やモデルテスト以外に、AI が LLM を改善するのに使われた他の事例はあるだろうか?
より効率的なトランスフォーマーは、実行コストを下げるだけだ
「AI が AI を改善する」と言うには、ある世代の AI が、自分より根本的に有能な次世代 AI を設計しなければならない。単に速くしたり安くしたりするだけではなく、爬虫類の脳が哺乳類の脳を自律的に設計するようなレベルでなければならない
AlphaEvolve のような賢いハーネスにつないでも、LLM にそういう創造性があるとは思わない。ただし、次世代アーキテクチャが、LLM が予測できる部品の組み合わせとしてあからさまに隠れているなら例外かもしれない
より可能性が高い道筋は、AGI に向けた人間の革新があと数段階進んだのち、プロンプトベースの組み合わせ生成ではなく 自律的革新 ができる AI が現れることだ
シンギュラリティを不可能にするほど強い制約があるかもしれないし、時間軸が長すぎて実用的でないかもしれないのでは?
すべての大手 AI 研究所が研究エージェント、とくに AI 改善のためのエージェントプロジェクトを大規模に進めていて、今年そのかなりの部分が実験段階を脱すると予想している
来年には実際に多くの仕事をこなすようになり、AI が共同発明した最初の大きく有効なアーキテクチャ変更が出てくると思う
Erdős 問題の話をまた何度聞かされるのか :) 最初は人類の偉大な達成のように聞こえるが、時間が経つと何度も戻ってくる
その一方で Gemini CLI はここ数か月ずっと壊れたままだ
https://github.com/google-gemini/gemini-cli/issues/22141
Google には Gemini 3.x モデルの 正式リリース に集中し、429 エラーと戦い続けなくて済むだけの十分な容量を提供してほしい
Vertex API で企業顧客向けアプリケーションを開発するなと言われているように感じることが多い。文書解析などでモデルが本当に優れていたことを思うと残念だ
すべての *Evolve 論文は結果が非常に印象的だが、公開情報を見て感じるのは、関心が LLM と AI 側に偏っていることだ
ただし、報告される成果はほとんど常に、LLM と 進化アルゴリズム がうまく機能するよう非常によく設計された環境の結果でもある
この論文はその良い例で、読む価値がある
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
アルゴリズム改善のための非常にシンプルな解法だ。活性化エンジニアリングをやっていた数年前にこれがあればよかった: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
AlphaEvolve にはどうやってアクセスできるのか?
Claude で感じた問題は、単純な作業にもコードや出力を過剰に膨らませ、しかも時には動かないことだ
Gemini は、動く解決策を必要なだけのコードと最小限の複雑さで提供してくれるので、管理しやすいバランスをかなりうまく取っている
最近 Claude を使うのはフロントエンドコード、とくに HTML くらいだ。ここでも CSS コードが多すぎてファイルサイズの 60% くらいを占めるが、それでも少し洗練された感じが出るので、ファイルサイズが大きくなるのは受け入れている