- SimpleFoldは、Appleが公開した初のflow-matchingベースのタンパク質折りたたみ予測モデルであり、タンパク質構造予測オープンソースフレームワーク
- 従来の複雑なドメイン特化設計の代わりに、汎用Transformerレイヤーとflow-matching生成学習だけで高い性能を達成
- 3B(30億)パラメータで学習され、過去最大規模を誇り、公開ベンチマークでSOTA(最先端)モデルに匹敵する競争力を示す
- 複雑な構造モジュール(三角アテンション、ペア表現など)がなく、効率的で大規模データセットへの拡張に有利
- ユーザー独自のデータでモデルのチューニングや再学習が可能で、生命情報学・製薬など幅広い実務活用性が高い
SimpleFoldの紹介と意義
- SimpleFoldは、Appleが発表した初のflow-matchingベースのタンパク質折りたたみ予測モデル
- 既存の代表的なモデルと異なり、複雑な**トライアングルアテンション(triangle attention)**やペア表現バイアスなしに、汎用Transformerレイヤーのみを使用
- 生成型のflow-matching目標で学習され、単一構成だけでなくアンサンブル予測でも高い性能を示す
- 最大3Bパラメータ規模まで拡張され、860万件以上のタンパク質データと実験ベースのPDBデータを組み合わせて大規模学習を実施
- これは、これまでに発表された最大規模のタンパク質折りたたみモデル
主な機能と利点
- 汎用性: 制約なくさまざまなドメインやデータセットに適用可能
- 効率性: 複雑なドメイン特化コンポーネントがないため、学習・推論速度やモデルサイズの面で有利
- 拡張性: 100M〜3Bパラメータまで多様なサイズを提供し、GPU/MLX(PyTorch/Appleハードウェア)をともにサポート
- 生成学習: 複数の予測結果を一度に導き出すアンサンブル予測をサポート
- ユーザーデータ対応: 独自データセットによる再学習、チューニング、カスタム活用が自由
使用例とサポート内容
- Jupyter Notebookの例(
sample.ipynb)を提供し、実際のタンパク質配列入力ですぐに構造予測が可能
- 高性能推論: コマンドラインインターフェースでモデルサイズの選択、推論バックエンド(MLX, PyTorch)の指定、結果ファイルおよび信頼度指標(pLDDT)の返却が可能
- ベンチマークデータセット結果: 標準評価セット(CAMEO22、CASP14など)のSimpleFold予測結果を提供・公開
- 評価: OpenStructureやTMscoreなど既存ツールと連携した評価スクリプトを提供し、多様な構造予測評価が可能
学習とデータ準備
- 学習用データとして、PDB実験データ、AFDB SwissProt/AFESM/AFESM-Eなど860万件以上の精製済みタンパク質構造を活用
- データリスト(ターゲットリスト)およびサンプルファイルもあわせて公開し、研究者向けのカスタムデータセット構築を支援
- MMCIFファイル前処理、Redis活用、Hydraベースの設定ファイルにより、容易に実験環境を構築可能
- 学習用サンプルスクリプト(
train.py, train_fsdp.py)と設定(config)を提供
オープンソースと引用
- MITライセンスで公開され、どこでも自由な研究・商用利用が可能
- コードとモデルには複数のオープンソースおよび協力者の貢献が含まれており、詳細はACKNOWLEDGEMENTSを参照
- 活用時はアーカイブ論文(Arxiv:2509.18480)を引用
結論
- SimpleFoldは、既存のタンパク質構造予測モデルが依存していた複雑な構造の代わりに、シンプルでありながら強力なアプローチで業界に新たなパラダイムを提示
- 特に、汎用Transformer構造と生成学習の組み合わせにより、生命科学、新薬開発、バイオインフォマティクスなど多様で創造的な応用が期待できる
1件のコメント
Hacker Newsの意見
ここで見落としがちな点は、「単純な」モデルが実際には実験構造から単に折りたたみを学んだわけではないということ。学習データの大半はAlphaFoldスタイルの予測から来ており、これはすでに巨大で、MSAベースの複雑に設計されたモデル群が作った数百万件のタンパク質構造から成っている。つまり、すべての帰納バイアスやMSAツールを捨てられるわけではなく、誰かがそれらのモデルを構築して動かし、学習用データを作る必要があった
ここから私が得た教訓は、単純さとスケーラビリティだ。機械学習の分野では、性能を上げるためにますます複雑なモジュールが次々に現れる一方で、突然、単純なモデルが複雑なモデルに匹敵するブレークスルーが出ることがある。こうした「単純な」アーキテクチャがそれ自体でこれほどよく機能するということは、そこに再び複雑さを加えれば、さらに先まで到達できる可能性があることも意味する。MSAを再び組み込めるのか、そこからどこまで行けるのかが気になる。私の理解では、「ラフな」生成モデルがいくつかのもっともらしい推測を出し、より形式的な「検証器」が物理・幾何学の法則を守らせる。AIは想像もつかないほど巨大な探索空間を絞り込み、高価なシミュレーションが無駄な場所で浪費されるのを減らしてくれる。推測ネットワークが改善されれば、全体のプロセスはさらに速くなる。振り返れば、RNNに次々と複雑な伝達関数が載っていた時代、スキップフォワードレイヤー以前の複雑な前処理チェーン、ReLU以前の複合的な正規化目標、diffusion以前の複合目的GANネットワーク、全畳み込みネットワーク以前の複雑なマルチパスモデルなどを思い出す。そういう意味で、私はこの研究に非常に興奮している。最適なアーキテクチャだからではなく、むしろそうではないからだ
これがそんなに不思議なことなのかは分からない。ほとんどすべての単純なものは、かつて複雑だと思われていた。emergenceとはまさにそういうことで、一般化された単純な公式を見つけるには、たいていまずあらゆる複雑さを経る必要がある。自然現象も実際には比較的単純な規則から生まれているのは明らかだ。Game of Lifeでその規則と初期値を逆推定するのに似ている。そんなことが簡単だと言う人は自信過剰だ。しかし本気でP=NPだと信じている人はほとんどいないだろう
AlphaFoldはX線で折りたたまれたタンパク質を実験的に観測しながら検証したモデルだ
その通り。念のため言うと、MSAは既存のPDB構造から新しい配列へ一般化するために使われる。AlphaFold2の結果で学習させると、その一般化結果まで含まれてしまうので、もはやモデル自体にその能力は不要になる(極端に言えば記憶するだけでよい)。この単純な結論は、論文著者たちには見落とされているようだ
大学の寮で電気代がほぼ無料で、メディアサーバーも余っていた時代に、Folding@Home(https://foldingathome.org)プロジェクトで初めてタンパク質折りたたみを知った。専門家ではないが、最近のハードウェアではタンパク質折りたたみが昔よりかなり単純化されたのか、それとも特定の問題にしか適用できないのかが気になる。Folding@Homeプロジェクトもまだ続いているようだ
私の知る限り、Folding@Homeは物理ベースのシミュレーションソルバーで、AlphaFoldおよびその後継(ここで話しているものも含む)は統計的手法だ。統計的手法は計算コストがはるかに低いが、既存のタンパク質折りたたみに基づいているため、学習セットに似ていないタンパク質には予測力が弱い。つまり、速度と汎用性のトレードオフはあるが、それでも性能は大きく向上し、目的のタンパク質の折りたたみ構造をたいてい得られるようになった。かつてはほぼ不可能だった折りたたみ予測が、今では通常のワークフローの一部になっている
SETI@Homeも楽しんでいたし、結果が何なのか100%分からなくても、可視化エフェクトが目立っていて楽しかった
F@Hのブログ記事(リンク)によれば、最終的な折りたたみ形状だけでなく、折りたたみダイナミクスを知ることも依然として重要だという。MLで予測されたタンパク質も、シミュレーションの検証や作用機序の理解のための重要なターゲットになっている
Folding@Homeは今も活発に運営されており、その間に多くの素晴らしい発見をしてきた(論文/結果リンク)
この論文は「我々の手法は最先端(state of the art)モデルより単純だ」と述べている。だが「すべての評価指標で最先端よりかなり劣る」とは大きくは言っていない。論文を出すのも簡単ではないが、大企業の名前付きでpreprintとして出すと、少しは注目を集めやすいようだ
この投稿本文からリンクされているGitHubリポジトリはぜひ読む価値がある(arXivリンク)
要旨だけ見ても(私の読み違いでなければ)、「やはりAIは必要だが、他の手法よりずっと少ないAIで済む」という話だ
GitHubリンクも、興味のある人向けに共有しておく(apple/ml-simplefold)
なぜAppleがタンパク質折りたたみをやっているのか気になる
AppleにもMLリサーチグループがある。いかにもAppleらしい研究だけでなく、さまざまな汎用最適化や基礎研究など、幅広いテーマを扱っている(Apple Machine Learning Research)
私にも分からない。ただ、直接売上を期待されないR&D職には応募してみたい。もしかすると、こうしたプロジェクトは自社AIチップを試験・改善するためのテストにもなっているのかもしれない
ローカル推論のためだと思う。Appleはこうした最先端モデルを小型化して、デスクトップ上で高速に推論できるようにしたいのだろう。論文でもM2 Max 64GBでの推論結果がFigure 1Eに示されている。実際、この発想は素晴らしい。小規模な製薬会社でも、高速なローカル推論機能によって多くの障壁を簡単に越えられる。生成した配列を使ってベイズ最適化やRLも試せる。比較するとAlphaFoldはかなり多くのリソースを必要とする。しかも多重配列アラインメントの活用自体もやや無理があり、似たタンパク質がない場合には性能が落ち、前処理も非常に多い。MetaのESM(数年前)も、すでにアラインメントなしでうまくいくことを示していた。AlphaFoldに特別な魔法があるわけではなく、単なるseq2seq問題なのでさまざまな手法がうまく機能する。attention-free SSMsも含めて
コンピュータを売るためでは? 20年前にはAppleはWWDCで科学向けのポスターセッションもやっていたし、MacへのPyMol移植にも力を入れていた。論文に出てくるタンパク質図はPyMolで作られており、この15年間の科学論文画像の半分以上はPyMolで作られている
これが本当の理由かは分からないが、「ai for science」プロジェクトのかなりの部分は、実際にはマーケティング目的だ。会社の製品に直接利益をもたらさなくても、あるいは実質的な成果がなくても、こうしたプロジェクトは「ブランドの地位」にかなりポジティブに働く
AlphaFoldが公開されて以降、古典的な分子動力学(MD)シミュレーションはタンパク質折りたたみ分野で今や不要になったのか気になる。DESRESのようなところの研究は、タンパク質折りたたみと直接関係する分野なのか、それともまったく別の研究をしているのか知りたい
MDは原子の動きを扱い、AlphaFoldは結果のスナップショットしか与えない。つまり、AlphaFoldはダイナミクスを扱わない。MDの本質は今でも動きそのものだ
AlphaFold V3のパラメータは特定の団体にのみ提供され(非商用利用に限定)、誰でも入手できるわけではないと知って調べてみた(V3パラメータ)。一方でAlphaFold V2は誰でもダウンロードできる(V2パラメータ)
MDはもともと構造予測にまともに使える手法ではなかった。AlphaFoldのせいで不要になったというより、もともとMDはタンパク質折りたたみそのもの(最終構造ができるまでの過程、あるいは折りたたまれた後の系統的な動き)を研究するのに向いている
論文に載っているタンパク質の図が何なのか気になって調べてみた。「Figure 1 SimpleFold予測結果…実際の結果は明るいエメラルド色、予測は濃い青緑色」。でも、なぜそんな配色にしたのかのほうがもっと気になる
専門家に、このアプローチがタンパク質折りたたみ研究にどんな意味を持つのか評価してほしい。面白い研究には見えるが、実際にどんな影響があるのかはよく分からない
このモデルは表現が単純で、単にtransformerだけを使っている。transformer向けのさまざまな理論やツールをそのまま適用でき、何よりモデルのスケーリングがしやすい。さらに重要なのは、AlphaFoldに魔法はなかったということだ。アーキテクチャや学習法の細部そのものより、結局は大規模データセットで大規模モデルを学習させることが肝心だった。実験的にAlphaFoldを使ってきた多くの人は、LLMと似たように(学習データセットに似た入力には強いが、一般化はほとんどしない)振る舞うことを観察している
今後モデルに変化があるかもしれない。ある人の意見は参考になるかもしれない(SimpleFoldとタンパク質構造予測の未来)。ただし研究には常に時間がかかり、実際のインパクトは数か月から数年見ないと分からない。未来予測には限界がある
完全に新しいわけではないが、タンパク質折りたたみモデルがますます単純化されていく流れを見るのは非常に印象的だ。AF2からAF3でもモデルの複雑さは下がっていたし、今回の研究はその流れの中でもう一段進み、「bitter lesson」を実践している
論文で扱われているFlow-matching手法が本当に興味深い。生成AIの文脈で勉強していて知ったのだが、熱力学的な概念やブラウン運動から借りてきた手法が、再びタンパク質折りたたみ問題の解決にぴったり使われているのが面白い