- Google DeepMindがAlphaGenomeという新しいDNA配列AIモデルを公開
- このモデルは遺伝子調節変異の効果予測の精度を高め、さまざまな遺伝子調節プロセスを予測できる
- 最大100万塩基対の長いDNA配列を入力として受け取り、多様な生命現象を高解像度で予測できるのが特徴
- 既存モデルと異なり、多様な生体組織および細胞タイプに対する変異の影響を一度に評価できる
- AlphaGenomeは研究者が遺伝子機能と疾患生物学を理解し、新たな治療法の発見を加速することに貢献すると期待される
AlphaGenomeの紹介
- Google DeepMindはAlphaGenomeという新しいDNA配列AIモデルを公開
- このモデルは、遺伝子調節に影響を与える単一変異または突然変異の効果を精密に予測することで、ゲノム機能研究と疾患理解における重要な転換点をもたらす
- APIを通じて研究目的で先行利用でき、今後モデル自体も公開予定
AlphaGenomeの動作方式
- AlphaGenomeは最大100万塩基対分の長いDNA配列を入力として受け取り、さまざまな分子的特性を予測する
- 予測可能な特性には、遺伝子位置、RNA生成量、DNAアクセシビリティ、タンパク質結合部位など数千種類が含まれる
- ENCODE、GTEx、4D Nucleome、FANTOM5のような大規模公開データでモデルを学習
- 内部では畳み込み層で短いパターンをまず検出し、Transformerで配列全体の情報を結合した後、多様な予測値を導き出す
- 分散TPU環境で大規模計算を処理し、学習効率を高める
- 従来のEnformerモデルから発展し、タンパク質コード領域専用のAlphaMissenseとは異なり、非コード領域(全ゲノムの98%)まで包括的に解析する
AlphaGenomeの差別化ポイント
- 超高解像度・長距離配列解析: 100万塩基対単位で解析し、1塩基レベルの精度で結果を提供する
- 既存モデルより学習効率が高く、より少ない資源で高速に学習する
- 統合マルチモーダル予測: さまざまな遺伝子調節段階の情報を1つのモデルで同時に予測
- 効率的な変異スコアリング: 変異配列と正常配列を即座に比較し、さまざまな生命現象に対する変異の影響度を迅速に計算する
- 革新的なスプライシング結合部モデリング: 遺伝子スプライシング位置と発現レベルを直接予測し、希少疾患研究にも貢献する
高度な性能とベンチマーク結果
- AlphaGenomeは、ゲノム予測ベンチマーク24件中22件、変異の調節効果評価26件中24件で外部の最先端モデルを上回るか、同等の性能を達成
- 個別タスクに特化したモデルよりも、多様な生体特性を単一のAPI呼び出しで同時に予測できる唯一のモデルである
統合型モデルの利点
- 複数のモダリティを統合的に扱えるため、科学者は多様な仮説と実験を素早く反復できる
- DNA配列の一般的表現を学習しており、コミュニティによる追加学習・最適化が容易
- データや適用範囲を追加して拡張できる柔軟性と拡張性を提供
強力な研究ツールとしての意義
- 疾患理解: 希少変異などの疾患原因の解明や治療ターゲット探索への活用可能性
- 合成生物学: 特定機能を持つ合成DNAの設計に活用可能
- 基礎研究: ゲノムの中核的機能要素のマッピングや細胞別調節要素の発見を支援
- 実際にAlphaGenomeは、T-ALL(急性リンパ性白血病)関連変異がMYB DNA結合モチーフの形成によって近傍のTAL1遺伝子活性化を引き起こすことを予測し、その変異が疾患遺伝子に及ぼす影響メカニズムを再現した
現在の限界
- 10万塩基以上離れた非常に遠距離の調節要素の効果の把握は依然として課題
- 細胞および組織特異的パターン認識にも追加研究が必要
- 個人ゲノム予測(個別化診断・予測)用途は現時点では想定していない
- 分子レベルの予測のみに対応しており、あらゆる疾患の複雑な原因を完全に説明できるわけではない
- 現在は研究発表段階であり、直接的な臨床適合性評価や治療適用はまだ不可能
コミュニティ支援と今後の方向性
- APIは非商用の研究目的ですぐに利用でき、研究コミュニティとの幅広い協力を通じてAlphaGenomeの活用度を高める計画
- コミュニティフォーラムなどを通じてフィードバックや利用事例を受け付けている
- より多くのデータ、種、モダリティが追加された拡張版へと進化する予定
- ゲノム解釈に関連する新たな医療・生命科学研究のイノベーション促進が期待される
まとめ
- AlphaGenomeは、一度に多様な観点から遺伝的変異の意味を解釈し、基礎研究および臨床研究を加速する新しいAIベースのゲノム解析ツールである
- 外部の専門家集団と協力し、可能な限り多くの人々にゲノムデータに基づくイノベーションを広げていく計画
2件のコメント
遺伝子予測を扱うAIモデルにおけるマルチモダリティとは、どのようなモダリティのことなのか気になってo3に聞いてみたところ、転写量、転写の開始・終了位置、スプライシングなどをモダリティと呼ぶと教えてくれました。
Hacker Newsのコメント
企業からの圧力が強まっている兆候が見える部分として、単一のA100で動かせるモデルであるにもかかわらず、コード公開もパラメータ公開もなくAPIの裏側でしか動かしておらず、論文31ページではモデル全体を擬似コードとして丸ごと貼り付けている様子が見て取れる。Google/Demis/Sergeiには、せめてパラメータだけでも公開してほしい。これほど小さなモデルがAPIの裏に閉じ込められていては、がんすら治せるはずがなく、GCloudの収益もそれほど大きくはならないだろうと思う。
細胞シミュレーション分野でブレークスルーが起きて、分子動力学のように有用でありながら現代のスーパーコンピュータで実行可能な水準のシミュレーションが実現してほしい。内部で何が起きているのか見られないことが、生命科学研究における大きな障害だと考えている。
高インパクトなAI応用研究をしているのはDeepMindだけではないが、この分野でひときわ目立っているのはなぜなのか気になる。技術マーケティングが優れているのか、それとも別の理由があるのか。
入力サイズを人間のゲノムサイズである3.2Gbpまで拡張したら面白い相互作用が現れそうで興味深い。U-netとtransformerが研究の中心になっているのも興味深い点だ。
企業内部では、ゲノムデータを使って広告効率を高めようというアイデアも出てくるだろう。たとえば大腸がんリスクが見えれば「大腸の健康サプリ」の広告を出し、遺伝情報で嗜好を分析して「この遺伝子はブラックユーモアを好む傾向と相関があるので、この遺伝子を持つ人たち向けに新作映画を宣伝する」といったマーケティング戦略もあり得る。
RNA予測性能の大きな飛躍は、mRNA研究ラボにとって大きな機会になると予想される。
2008年にGoogleへ入社した直後、生命科学分野に大きく投資すべきだと主張していた。Googleはデータ処理とMLの能力で世界的な成果を出し、その方法を他の生物学者にも再現可能にできると確信していた。実際、exacycleを通じてタンパク質のフォールディングや設計で興味深い結果が生まれ、その後Cloud Genomicsの立ち上げで大規模データセットの保存・分析サービスまで進んだ。結局DeepMindは、私が思い描いていた目標をはるかに見事に実現したことになる。最近の論文には見どころが非常に多く、コミュニティが内容を消化するのに時間がかかりそうだ。
論文の最大の問題の1つである、相関の高いDNA区間の中から本当に因果的な変異と非因果的な変異を区別する作業(遺伝学ではfine mappingと呼ばれる)を無視している点が残念だ。効果的な薬剤標的のためには、中核となる調節領域を正確に絞り込むことが非常に重要だ。最近のNature論文には、この問題の実例と、自己免疫におけるマクロファージ機能調節の候補薬につながった事例がある。