AlphaGenome: ゲノムをより深く理解するためのAI

(deepmind.google)

1 ポイント投稿者 GN⁺ 2025-06-27 | 2件のコメント | WhatsAppで共有

Google DeepMindがAlphaGenomeという新しいDNA配列AIモデルを公開
このモデルは遺伝子調節変異の効果予測の精度を高め、さまざまな遺伝子調節プロセスを予測できる
最大100万塩基対の長いDNA配列を入力として受け取り、多様な生命現象を高解像度で予測できるのが特徴
既存モデルと異なり、多様な生体組織および細胞タイプに対する変異の影響を一度に評価できる
AlphaGenomeは研究者が遺伝子機能と疾患生物学を理解し、新たな治療法の発見を加速することに貢献すると期待される

AlphaGenomeの紹介

Google DeepMindはAlphaGenomeという新しいDNA配列AIモデルを公開
このモデルは、遺伝子調節に影響を与える単一変異または突然変異の効果を精密に予測することで、ゲノム機能研究と疾患理解における重要な転換点をもたらす
APIを通じて研究目的で先行利用でき、今後モデル自体も公開予定

AlphaGenomeの動作方式

AlphaGenomeは最大100万塩基対分の長いDNA配列を入力として受け取り、さまざまな分子的特性を予測する
予測可能な特性には、遺伝子位置、RNA生成量、DNAアクセシビリティ、タンパク質結合部位など数千種類が含まれる
ENCODE、GTEx、4D Nucleome、FANTOM5のような大規模公開データでモデルを学習
内部では畳み込み層で短いパターンをまず検出し、Transformerで配列全体の情報を結合した後、多様な予測値を導き出す
分散TPU環境で大規模計算を処理し、学習効率を高める
従来のEnformerモデルから発展し、タンパク質コード領域専用のAlphaMissenseとは異なり、非コード領域（全ゲノムの98%）まで包括的に解析する

AlphaGenomeの差別化ポイント

超高解像度・長距離配列解析: 100万塩基対単位で解析し、1塩基レベルの精度で結果を提供する
既存モデルより学習効率が高く、より少ない資源で高速に学習する
統合マルチモーダル予測: さまざまな遺伝子調節段階の情報を1つのモデルで同時に予測
効率的な変異スコアリング: 変異配列と正常配列を即座に比較し、さまざまな生命現象に対する変異の影響度を迅速に計算する
革新的なスプライシング結合部モデリング: 遺伝子スプライシング位置と発現レベルを直接予測し、希少疾患研究にも貢献する

高度な性能とベンチマーク結果

AlphaGenomeは、ゲノム予測ベンチマーク24件中22件、変異の調節効果評価26件中24件で外部の最先端モデルを上回るか、同等の性能を達成
個別タスクに特化したモデルよりも、多様な生体特性を単一のAPI呼び出しで同時に予測できる唯一のモデルである

統合型モデルの利点

複数のモダリティを統合的に扱えるため、科学者は多様な仮説と実験を素早く反復できる
DNA配列の一般的表現を学習しており、コミュニティによる追加学習・最適化が容易
データや適用範囲を追加して拡張できる柔軟性と拡張性を提供

強力な研究ツールとしての意義

疾患理解: 希少変異などの疾患原因の解明や治療ターゲット探索への活用可能性
合成生物学: 特定機能を持つ合成DNAの設計に活用可能
基礎研究: ゲノムの中核的機能要素のマッピングや細胞別調節要素の発見を支援
実際にAlphaGenomeは、T-ALL（急性リンパ性白血病）関連変異がMYB DNA結合モチーフの形成によって近傍のTAL1遺伝子活性化を引き起こすことを予測し、その変異が疾患遺伝子に及ぼす影響メカニズムを再現した

現在の限界

10万塩基以上離れた非常に遠距離の調節要素の効果の把握は依然として課題
細胞および組織特異的パターン認識にも追加研究が必要
個人ゲノム予測（個別化診断・予測）用途は現時点では想定していない
分子レベルの予測のみに対応しており、あらゆる疾患の複雑な原因を完全に説明できるわけではない
現在は研究発表段階であり、直接的な臨床適合性評価や治療適用はまだ不可能

コミュニティ支援と今後の方向性

APIは非商用の研究目的ですぐに利用でき、研究コミュニティとの幅広い協力を通じてAlphaGenomeの活用度を高める計画
コミュニティフォーラムなどを通じてフィードバックや利用事例を受け付けている
より多くのデータ、種、モダリティが追加された拡張版へと進化する予定
ゲノム解釈に関連する新たな医療・生命科学研究のイノベーション促進が期待される

まとめ

AlphaGenomeは、一度に多様な観点から遺伝的変異の意味を解釈し、基礎研究および臨床研究を加速する新しいAIベースのゲノム解析ツールである
外部の専門家集団と協力し、可能な限り多くの人々にゲノムデータに基づくイノベーションを広げていく計画

2件のコメント

galadbran 2025-06-27

遺伝子予測を扱うAIモデルにおけるマルチモダリティとは、どのようなモダリティのことなのか気になってo3に聞いてみたところ、転写量、転写の開始・終了位置、スプライシングなどをモダリティと呼ぶと教えてくれました。

GN⁺ 2025-06-27

Hacker Newsのコメント

企業からの圧力が強まっている兆候が見える部分として、単一のA100で動かせるモデルであるにもかかわらず、コード公開もパラメータ公開もなくAPIの裏側でしか動かしておらず、論文31ページではモデル全体を擬似コードとして丸ごと貼り付けている様子が見て取れる。Google/Demis/Sergeiには、せめてパラメータだけでも公開してほしい。これほど小さなモデルがAPIの裏に閉じ込められていては、がんすら治せるはずがなく、GCloudの収益もそれほど大きくはならないだろうと思う。
細胞シミュレーション分野でブレークスルーが起きて、分子動力学のように有用でありながら現代のスーパーコンピュータで実行可能な水準のシミュレーションが実現してほしい。内部で何が起きているのか見られないことが、生命科学研究における大きな障害だと考えている。
- Arcでは実際にこの課題に取り組んでおり、詳しくはarcinstitute.orgの関連ニュースで確認できる。
- この点は量子コンピューティングが解決してくれると思うが、まだ10年ほどかかる見込み。AIによる加速は予測が難しい。
- 真に決定論的なシミュレーションを作ろうとする取り組みがもっと増えてほしい。結果だけを見せるブラックボックスより、内部過程を明らかにする方式のほうが重要だと思う。
高インパクトなAI応用研究をしているのはDeepMindだけではないが、この分野でひときわ目立っているのはなぜなのか気になる。技術マーケティングが優れているのか、それとも別の理由があるのか。
- 今回の論文はよくできた研究ではあるが、画期的な革新とまでは見えず、似た試みはすでに長く続いてきたという意見。
- DeepMindはかなり前からこの仕事をしており、Googleが提供する莫大な資源に支えられている。perplexityによれば、alphafold 2データベースの構築には「数百万GPU時間」が必要だった。
- 生命科学分野ではArc Instituteが非常に新鮮な研究を進めており、製薬会社の中ではGenentechやGSKがAIグループで優れた成果を出している。
- Google傘下の組織なのだから、2兆ドル企業の支援は単なるマーケティング以上の利点をもたらしていると思う。
入力サイズを人間のゲノムサイズである3.2Gbpまで拡張したら面白い相互作用が現れそうで興味深い。U-netとtransformerが研究の中心になっているのも興味深い点だ。
- 実際には2メガベース以上は必要ないと思う。ゲノムは1本の連続した配列ではなく、染色体やtopologically associated domain単位で物理的に分離・組織化されている。2メガベース程度あれば、cis regulatory elementとeffector geneの主要な相互作用範囲はほぼすべて含まれる。
- 「何もかもがU-netとtransformer中心で回っているのが興味深い」という点については、「ハンマーしか持っていない人」の視点に言及。
企業内部では、ゲノムデータを使って広告効率を高めようというアイデアも出てくるだろう。たとえば大腸がんリスクが見えれば「大腸の健康サプリ」の広告を出し、遺伝情報で嗜好を分析して「この遺伝子はブラックユーモアを好む傾向と相関があるので、この遺伝子を持つ人たち向けに新作映画を宣伝する」といったマーケティング戦略もあり得る。
RNA予測性能の大きな飛躍は、mRNA研究ラボにとって大きな機会になると予想される。
- （直後の返信: この点は米国外の地域でより顕著に現れるのではないかと思う）
2008年にGoogleへ入社した直後、生命科学分野に大きく投資すべきだと主張していた。Googleはデータ処理とMLの能力で世界的な成果を出し、その方法を他の生物学者にも再現可能にできると確信していた。実際、exacycleを通じてタンパク質のフォールディングや設計で興味深い結果が生まれ、その後Cloud Genomicsの立ち上げで大規模データセットの保存・分析サービスまで進んだ。結局DeepMindは、私が思い描いていた目標をはるかに見事に実現したことになる。最近の論文には見どころが非常に多く、コミュニティが内容を消化するのに時間がかかりそうだ。
- SundarがGoogle CEOとして人を鼓舞するタイプのリーダーではないという評価には同意するが、就任前の2015年の四半期利益3Bから2025年Q1の35Bへと10倍成長を牽引した。広告事業を巧みに守り抜いて今の収益性をもたらしたと思う。AI転換はやや遅れたが、geminiなどでは競争力があると見ているし、DeepMindも大きな成果を出している。「Sundarはhypeは少ないが実績は優れている」という評価。
- 「長年の宿願がかなってうれしい」という意見は、かなり自己陶酔的に聞こえるという意見。たいていの人も素晴らしいアイデアを持っていても、「ついに！私のアイデアが世の中に…」のようには言いにくいという指摘。
- 以前Santa Cruz行きのシャトルでこの話題について話したことがあるかと尋ねるコメント。当時の話がとても面白く、AlphaGenomeの登場にも今なおわくわくしているという感想。
- 現役のGooglerとして見ると、Sundarに対する考えはかなり複雑だ。AI分野に初期からインフラとツールへ投資してきた点は認めるが、DemisよりJeff Deanにより大きな功績を認めるべきだと思う。
論文の最大の問題の1つである、相関の高いDNA区間の中から本当に因果的な変異と非因果的な変異を区別する作業（遺伝学ではfine mappingと呼ばれる）を無視している点が残念だ。効果的な薬剤標的のためには、中核となる調節領域を正確に絞り込むことが非常に重要だ。最近のNature論文には、この問題の実例と、自己免疫におけるマクロファージ機能調節の候補薬につながった事例がある。
- 今回の結果がその方向へ近づくものなのか気になる。専門知識は深くないが、機能予測が良くなれば本当に重要な変異と意味のない変異を区別しやすくなる気がする。次の段階は、適切な統計的fine mapping手法との統合になるだろう。