紹介
この記事を読むべき人
- AlphaFold3の動作方式を理解したい人
- 複雑な構造を視覚的に理解したい人
- 機械学習に慣れている人
アーキテクチャ概要
- AlphaFold3はタンパク質、核酸、低分子などの構造を予測する
- 複雑な入力タイプを処理するため、より複雑な特徴化/トークン化方式を使用する
入力準備
トークン化
- 標準アミノ酸: 1トークン
- 標準ヌクレオチド: 1トークン
- 非標準アミノ酸/ヌクレオチド: 1トークンあたり原子
- その他の分子: 1トークンあたり原子
検索(MSAおよびテンプレート生成)
- 類似した配列を見つけてMSAとテンプレートを生成
- ユークリッド距離を計算した後、distogramに変換
原子レベル表現の生成
- 各アミノ酸、ヌクレオチド、リガンドの「参照構造」を生成
- 原子レベルの単一表現(q)とペア表現(p)を生成
原子レベル表現の更新(Atom Transformer)
- qとpを更新して、より良い表現を生成
- Adaptive LayerNorm、Attention with Pair Bias、Conditioned Gating、Conditioned Transitionを使用
原子レベル -> トークンレベル集約
- 原子レベルの表現をトークンレベルに変換
- MSAおよびユーザー提供情報を追加
表現学習
テンプレートモジュール
MSAモジュール
- MSAとzを更新
- Outer Product Mean、Row-wise Gated Self-Attention Using Only Pair Biasを使用
Pairformerモジュール
- sとzを更新
- Triangle Updates、Triangle Attentionを使用
構造予測
拡散の基本原理
- 拡散モデルを使用して構造を予測
- ノイズを追加して除去し、最終構造を生成
GN⁺によるまとめ
- AlphaFold3はタンパク質、核酸、低分子などの複雑な構造を予測する
- 視覚的なダイアグラムとともに複雑なモデル構造を説明し、理解を助ける
- 機械学習とバイオテクノロジー分野で重要な進展を成し遂げたモデルである
- 類似機能を持つプロジェクトとしてはRosettaFoldなどがある
1件のコメント
Hacker Newsの意見
構造生物学者が理解できるように論文を翻訳してくれてありがたい
PTMの数が制限されたAF3では、すべての原子を個別のトークンとして扱わなければならないことが分かった
これは、PTMがPDBでは非常に少数しか現れないためだろう
ニューラルネットワークとAI技術が将来どのように実装されるのかを垣間見せてくれる記事だ
多くのエンジニアリングと既存技術の巧みな応用が、強力でよく訓練されたモデルと組み合わされている
現在のChatGPTのようなものは、データの汎化と処理のための基盤モデルを作る第一段階にある
モデルが入力を最適に理解できるように処理する作業は、まだあまり行われていない
この分野に関する基礎研究はあるが、AlphaFoldのように洗練されたものはまだない
人々はLLMを組み合わせ、システムプロンプトを使って入力処理を支援している
より複雑なシステムが登場すれば、本当のAGIに近いものが見られるだろう
非常に複雑だ
タンパク質配列のアラインメントに使われるMSAアルゴリズムについては聞いたことがなかった
驚くべき記事だ、感謝する
もっと詳しく読んでみる予定だ