2 ポイント 投稿者 GN⁺ 2 시간 전 | 1件のコメント | WhatsAppで共有
  • AlphaEvolveはGeminiベースのコーディングエージェントで、高度なアルゴリズム設計から出発し、数学・計算機科学の公開問題、Googleインフラの最適化、科学・産業の課題へと適用範囲を広げている
  • ゲノミクスでは DeepConsensus を改善し、変異検出エラーを 30%削減 し、電力網では AC Optimal Power Flow 問題の実行可能解の発見率を 14%から88%以上 に高めることに貢献した
  • 地球科学では Earth AI モデルの最適化を自動化し、山火事・洪水・竜巻など20カテゴリの自然災害リスク予測の全体精度を 5%向上 させ、量子物理では Willow quantum processor で従来のベースラインよりエラーが10分の1の量子回路を提案した
  • 数学では Terence Tao とともに Erdős問題 の解決に貢献し、Traveling Salesman ProblemRamsey Numbers の下界改善、解釈可能な神経科学モデル・ミクロ経済学・暗号学・合成データ・AI安全緩和策にも使われている
  • Googleインフラでは次世代 TPU 設計、キャッシュ置換ポリシー、Google Spanner の LSM-tree コンパクションヒューリスティクス、コンパイラ最適化に活用され、商用適用では Klarna の学習速度2倍、FM Logistic の経路効率 10.4%改善、Schrödinger の MLFF 学習・推論で約 4倍の高速化 を達成した

社会的影響と持続可能性

  • ゲノミクス

    • AlphaEvolve は Google Research が開発した DNA シーケンシング誤り補正モデル DeepConsensus の改善に使われ、変異検出エラーを 30%削減 した
    • この改善により、PacBio の科学者は遺伝データをより正確かつ低コストで分析できるようになった
    • PacBio の Aaron Wenger は、AlphaEvolve で見つけた解法がシーケンシング装置の精度を有意に高め、研究者がより高品質なデータによって、これまで見逃されていた疾患原因変異を発見できるようになると述べている
  • 電力網最適化

    • AlphaEvolve は AC Optimal Power Flow problem に適用された
    • 学習済み Graph Neural Network(GNN) モデルが、この問題の実行可能解を見つける割合を 14%から88%以上 へ引き上げることに貢献した
    • この結果、電力網におけるコストの高い後処理ステップの必要性が大幅に減少した
  • 地球科学

    • AlphaEvolve は複雑な地理空間データを、より信頼性が高く実行可能な洞察へ変換するために使われている
    • Earth AI モデルの最適化を自動化し、山火事・洪水・竜巻など20カテゴリを集計した自然災害リスク予測の全体精度5%向上 させた

研究最前線の進展

AIインフラ改善

  • AlphaEvolve はパイロットテストを超え、Googleインフラの中核コンポーネントになっている
  • TPU 次世代設計を最適化する定常的なツールとして使われている
  • より効率的なキャッシュ置換ポリシーを発見し、以前は人による集中的な作業に数か月を要していたタスクを 2日 で達成した
  • Jeff Dean は、AlphaEvolve が AI スタックを支えるハードウェアの最下層の最適化を始めており、直感に反するが効率的な回路設計を提案して次世代 TPU シリコンに直接統合されたと述べている
  • AlphaEvolve は Google SpannerLog-Structured Merge-tree コンパクションヒューリスティクスを改善し、効率を高めた
  • この最適化により、元の要求に対してストレージへ書き込まれるデータ比率である write amplification20%削減 した
  • AlphaEvolve は、ソフトウェアのストレージ使用量をほぼ 9%削減 した新しいコンパイラ最適化戦略についての洞察も提供した

商用適用の拡大

  • Google Cloudとともに、AlphaEvolve を複数産業の商用企業に提供している
  • 金融サービス分野では Klarna は AlphaEvolve を使って自社の大規模 transformer モデルの1つを最適化し、モデル品質を改善しながら学習速度を 2倍 に高めた
  • 半導体製造分野では Substrate は AlphaEvolve を計算リソグラフィフレームワークに適用し、ランタイム速度を数倍に高め、より大規模な先端半導体シミュレーションを実行できるようにした
  • 物流分野では FM Logistic は Traveling Salesman Problem のような複雑な経路問題を最適化し、従来の高度に最適化された解法と比べて経路効率を 10.4%改善 し、年間 15,000km以上 の移動距離を削減した
  • 広告・マーケティング分野では WPP は AlphaEvolve で AI モデル構成要素を洗練し、複雑な高次元キャンペーンデータを扱うことで、競争力のある手動モデル最適化と比べて精度を 10%向上 させた
  • 計算材料・ライフサイエンス分野では Schrödinger は AlphaEvolve を適用し、Machine Learned Force Fields(MLFF) の学習と推論の両方で約 4倍の高速化 を達成した
  • Schrödinger の Gabriel Marques は、より高速な MLFF 推論によって創薬、触媒設計、材料開発のR&Dサイクルが短縮され、企業が分子候補を数か月ではなく数日で選別できるようになり、実質的な事業インパクトを生むと述べている

今後の方向性

  • この1年で AlphaEvolve は多目的な汎用システムとして急速に定着しつつある
  • 次のブレークスルーが、自ら学習し進化し最適化できるアルゴリズムによって主導されうることを示している
  • Google DeepMind は AlphaEvolve の機能を拡張し、より広範な外部課題へ適用しようとしている

1件のコメント

 
GN⁺ 2 시간 전
Hacker Newsの意見
  • Antirez の "Don't fall into the anti-AI hype" [0] を思い出した
    一言でまとめると、こうした 基盤モデル は「行列積をもっと速くしろ」のような、非常に高レベルでありながら非常によく定義された問題空間を最適化するのが本当に得意だ。Antirez の場合は「Redis をもっと速くしろ」だった
    反応は「自分の仕事には絶対に通用しない」と「数か月かかる仕事を1時間で終えた」に分かれたが、どちらも正しいと思う。Antirez がその後も成果を出しているのは喜ばしいことだが [1]、大半の人がやっている、暗黙知が多く、人間のシステム中心で、曖昧に定義された仕事は LLM が扱いにくい、あるいはそもそもそういう用途ではなかったと考えてよいと思う
    [0] https://antirez.com/news/158
    [1] https://antirez.com/news/164

    • 正直、もうそうは思っていない。モデルは 曖昧さ をかなりうまく扱い始めていて、Claude Code は曖昧な点があると今ではこちらに質問してくる
      そのうち、あらゆる会議が録音・文字起こしされ、エージェントが曖昧さに直面したときに検索できる、よく索引付けされた場所に保存されるようになるだろう。今質問できるなら、そうした環境が整えば自分で答えを検索することもできるようになる。実際、十分に文書化された Notion / Confluence があれば、すでにそうしている。ただ、そういう組織がほとんどないだけだ
      「曖昧さの特定」を強化学習させるのは、性能アルゴリズムを強化学習させるより難しいだろうが、不可能ではなく、すでに進行中だと思う。あとは時間の問題だ
    • Claude などは、自分が考えたアルゴリズムを素早く実装するのにかなり役立った。ただし 制御質問 を多く投げ、コードも確認しなければならない
      非主流のアルゴリズムを新しく発明するのは苦手で、あきれるほど近視眼的な近道をねじ込んでくることが多い。まだ道具であって、道具を巧みに扱う職人ではない。これは徐々に変わるだろうし、珍しいアルゴリズムが勝てる余地もさらに減っていくだろう
    • 結局のところ、要因は次のどちらかに見える。「すごい、効率を 1% 改善した」か、「間抜けにも幻覚 API をデバッグするのに1時間無駄にした」かだ
      平均するとどちらが勝つのか、本当に判断が難しい
    • AI 補助研究が AI を LLM の先へ押し上げたらどうなるのか? そんなことは起こりえないと見ているのか?
    • 「LLM は暗黙知が多く、人間のシステム中心で、曖昧に定義された仕事はできない」という主張は、2030年 ごろにはかなり近視眼的に見える可能性が高い
  • AI CEO たちは AI ががんを治すと長々語るのが好きだが、実際にそうした 研究課題 に積極的に取り組んでいるのは DeepMind だけのように見える
    OpenAI と Anthropic は、だいたい企業売上とコーディング売上を追っているように見える

    • Google は戦時資金を自己調達できるが、OpenAI と Anthropic は投資家に頼る立場だ
  • Googler たちは Claude Code や Codex の代わりに Gemini コーディングエージェント を使うことに満足しているのか? 皮肉ではなく本当に気になる

    • そうだ。モデルは良くて速く、社内ツールも今では追いついてきた
      まだ UI/UX / ツールまわりで整理中の部分や、バージョン管理システム連携、言いにくいもっと深い問題はあるが、不満の大半は実際の能力というより 変化の速度 に近いと思う
      興味深いのは、社内で影響力のある何人かが Pro モデルより Flash モデルを強く好むと発言している点だ。これが本当かどうかは別として、今や「より良い」モデルが必ずしもより有用とは限らず、より速いモデルとハーネス改善の組み合わせのほうがよい折衷になる段階に来ているのが興味深い
    • Gemini VS Code Extension のことなら、Claude Code や Codex と比べてひどい。どうしてこの状態で運用されているのかわからない
      絶えないタイムアウト、奇妙な失敗モード、モードを切り替えるたびに新しいチャットを始めなければならない問題などがある。ただ、これは Gemini モデル自体の問題というより 拡張機能 の問題に見える
      VS Code 拡張の側面を除いて実際の問題解決だけを見るなら、3つのプレミアモデルはいずれも自分の用途には優れたコーディングエージェントだ
    • コーディングは Gemini やこうしたモデルの唯一の用途ではない。この記事が扱っているのもコーディングではない
      Gemini が最高のコーディングエージェントでないかもしれないが、他の仕事には非常に優れているかもしれない
    • 先月、Steve Yegge はそうではないことを示唆していた: https://xcancel.com/Steve_Yegge/status/2043747998740689171
    • Google にいる人たちと話すと、大半は社内 Gemini エージェントに不満があり、最近かなり悪化したと見ているようだ
      ツール呼び出しの方法を完全に忘れて長時間無駄にした末に諦めたり、AGENTS.md のようなファイルにある コードスタイル指針 を完全に無視したりする
      ローカルで Gemma 4 を動かした自分の経験も似ていた。ツール呼び出しを1、2回した後は、勝手気ままに呼び出し始める。つい昨日も、read_file(start, end) のようなツールを read_file(start, number_of_bytes) と再定義しておきながら、自分が間違っている可能性すら認めないのを見た
  • AI が自力で、あるいは少なくとも自分が動いているアーキテクチャを改善するなら、人々が言うように シンギュラリティ は近いということになる
    合成データ生成やモデルテスト以外に、AI が LLM を改善するのに使われた他の事例はあるだろうか?

    • AI が自分自身をより有能にすることと、AI の学習・推論に使われるソフトウェアを最適化することは、リンゴとオレンジ ほど違う
      より効率的なトランスフォーマーは、実行コストを下げるだけだ
      「AI が AI を改善する」と言うには、ある世代の AI が、自分より根本的に有能な次世代 AI を設計しなければならない。単に速くしたり安くしたりするだけではなく、爬虫類の脳が哺乳類の脳を自律的に設計するようなレベルでなければならない
      AlphaEvolve のような賢いハーネスにつないでも、LLM にそういう創造性があるとは思わない。ただし、次世代アーキテクチャが、LLM が予測できる部品の組み合わせとしてあからさまに隠れているなら例外かもしれない
      より可能性が高い道筋は、AGI に向けた人間の革新があと数段階進んだのち、プロンプトベースの組み合わせ生成ではなく 自律的革新 ができる AI が現れることだ
    • ある。去年 AlphaEvolve を公開したとき、以前の Gemini モデルで今回の世代モデルの学習に使われる カーネル を改善し、学習実行を 1% 速くした。大きくはないが、それでも成果だ
    • 最近いちばんバズったのは https://github.com/karpathy/autoresearch だと思う
    • 自己改善が必ずシンギュラリティを意味するわけではないのでは?
      シンギュラリティを不可能にするほど強い制約があるかもしれないし、時間軸が長すぎて実用的でないかもしれないのでは?
    • 「AI が自分自身を改善する」は、個人的には 2027年 に見るべきポイントだと思う
      すべての大手 AI 研究所が研究エージェント、とくに AI 改善のためのエージェントプロジェクトを大規模に進めていて、今年そのかなりの部分が実験段階を脱すると予想している
      来年には実際に多くの仕事をこなすようになり、AI が共同発明した最初の大きく有効なアーキテクチャ変更が出てくると思う
  • Erdős 問題の話をまた何度聞かされるのか :) 最初は人類の偉大な達成のように聞こえるが、時間が経つと何度も戻ってくる

    • まだ未解決の Erdős 問題 が700問ほどしか残っていないのだから、全部解ければようやく休める
  • その一方で Gemini CLI はここ数か月ずっと壊れたままだ
    https://github.com/google-gemini/gemini-cli/issues/22141

  • Google には Gemini 3.x モデルの 正式リリース に集中し、429 エラーと戦い続けなくて済むだけの十分な容量を提供してほしい
    Vertex API で企業顧客向けアプリケーションを開発するなと言われているように感じることが多い。文書解析などでモデルが本当に優れていたことを思うと残念だ

    • 無料プランでやっているのか? 無料プランでは 429 がずっと多く出るのを見た
  • すべての *Evolve 論文は結果が非常に印象的だが、公開情報を見て感じるのは、関心が LLM と AI 側に偏っていることだ
    ただし、報告される成果はほとんど常に、LLM と 進化アルゴリズム がうまく機能するよう非常によく設計された環境の結果でもある
    この論文はその良い例で、読む価値がある
    Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
    https://arxiv.org/abs/2601.21096

  • アルゴリズム改善のための非常にシンプルな解法だ。活性化エンジニアリングをやっていた数年前にこれがあればよかった: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
    AlphaEvolve にはどうやってアクセスできるのか?

    • ただの見せびらかし用の記事だ。10億ドル企業 になるか、さもなくば出ていけということだ
  • Claude で感じた問題は、単純な作業にもコードや出力を過剰に膨らませ、しかも時には動かないことだ
    Gemini は、動く解決策を必要なだけのコードと最小限の複雑さで提供してくれるので、管理しやすいバランスをかなりうまく取っている
    最近 Claude を使うのはフロントエンドコード、とくに HTML くらいだ。ここでも CSS コードが多すぎてファイルサイズの 60% くらいを占めるが、それでも少し洗練された感じが出るので、ファイルサイズが大きくなるのは受け入れている