3 ポイント 投稿者 GN⁺ 2024-09-05 | 1件のコメント | WhatsAppで共有
  • Ligo Biosciences の創業者たちが、タンパク質構造予測のための最新モデルである AlphaFold3 のオープンソース実装を共有
  • Google DeepMind とその新しいスタートアップ Isomorphic Labs は、新薬開発へと事業を拡大している
    • AlphaFold3 を開発し、新薬開発を加速させ、製薬会社の需要を生み出している
    • すでに Novartis および Eli Lilly と 30 億ドル規模の契約を締結済み
  • AlphaFold3 は生体分子構造予測(biomolecular structure prediction)モデルで、3つの主要機能を持つ
    • タンパク質構造予測
    • 薬物-タンパク質相互作用構造予測
    • 核酸-タンパク質複合体構造予測
  • AlphaFold3 はタンパク質構造のマッピングを劇的に加速するため、科学分野で非常に重要
    • 博士課程の学生1人が博士課程全体を通して1つの構造を研究するのに対し、AlphaFold3 を使えば実験精度に匹敵する予測を数分で得られる
  • 問題は、DeepMind が 5 月に AlphaFold3 を発表したものの、コードを公開していないこと
    • これは再現性への疑問と科学界の不満を引き起こした
  • AlphaFold3 は、バイオテック業界全体が恩恵を受けられる構造モデリング技術の根本的な進歩であり、その活用分野は非常に広い
    • CRISPR 遺伝子編集技術:科学者が DNA がはさみ役の Cas タンパク質とどのように相互作用するかを正確に見られる
    • がん研究:候補薬ががん標的にどう結合するかを予測可能。DeepMind の論文のハイライトの1つは、臨床 KRAS 阻害剤とその標的の複合体構造予測
    • 抗体/ナノボディと標的の予測:AlphaFold3 はこの分子クラスに対する精度を次点のツール比で 2 倍向上
  • 残念ながら非商用ライセンスのため、どの企業も利用できない
  • そこで AlphaFold3 のオープンソース実装をリリース
    • 単一鎖タンパク質で学習した完全なモデルを公開し、他の2つの機能もまもなく学習・公開予定
    • 学習コードも含まれる
    • 重みはトレーニングとベンチマーク完了後に公開予定
    • Apache 2.0 ライセンスを採用し、真のオープンソースとなるようにしている
  • DeepMind は論文を通じて、各コンポーネントの擬似コードとともにモデル全体の構造を公開していた
    • これを PyTorch に完全移植したが、想像以上に多くのリバースエンジニアリングが必要だった
  • 初期構築時に、DeepMind の論文内で学習を妨げるさまざまな問題を発見。ディープラーニングコミュニティにとって興味深い内容と思われる
    • MSE 損失スケーリングが Karras et al. (2022) と異なる。論文で提供された重み付けでは高ノイズ水準で損失が下がらない
    • 論文では residual layer が欠落している
      • 欠落していた residual layer を追加したところ、gradient flow と収束に利点があった
      • DeepMind が DiT ブロックで residual connection を省略した理由を知っている人がいるのか気になる
    • MSA モジュールの現在の形には dead layer が存在する
      • 最後の pair weighted averaging と transition layer は pair representation に寄与できず、gradient が伝播しない
      • AlphaFold2 の ExtraMsaStack と同じ順序に置き換えた
      • Weight sharing を使うのも代替案になり得るが、論文ではその説明が曖昧
  • Ligo(YC S24)では酵素設計のために AlphaFold3 のアイデアを活用している
  • AlphaFold3 のオープンソース化は、コミュニティに役立つ副次的なミッションだと考えている

GN⁺の意見

  • AlphaFold3 はタンパク質構造予測分野における革新的な技術であり、新薬開発や生命科学研究に大きな影響を与えると予想される
  • しかし DeepMind がコードを公開しなかったことは、科学界の再現性や協業の精神に反する行動と見ることもできる
  • AlphaFold3 に類似した機能を持つオープンソースプロジェクトとしては、OpenFold、RoseTTAFold などがある
  • AlphaFold3 を導入する際は、モデルの精度と限界、計算資源の要件などを綿密に検討する必要がある
  • オープンソース実装の登場により、より多くの研究者や企業が AlphaFold3 の恩恵を受けられるようになったが、商用化には依然として制約がある

1件のコメント

 
GN⁺ 2024-09-05
Hacker Newsのコメント
  • DeepMindとAlphaFoldはクローズドソースへ移行しつつある

    • Isomorphic LabsをAlphabetの部門として設立し、クローズドソースの取り組みに注力している
    • 学術ツールのオープンソース版が理論的には良さそうに思える
    • この分野に詳しくないので、具体的な利点を指摘するのは難しい
    • 会社の計画が何なのか気になる
    • オープンソースプロジェクトをビジネスモデルの一部として継続するのか、それとも一度きりなのか気になる
    • Webサイトが何を売ろうとしているのか非常に曖昧だ
  • 予測がどのように検証されるのか気になる

    • 予測後もX線結晶構造解析やクライオ電子顕微鏡などの実験技術を使う必要があるのか気になる
    • 予測が現実に非常に近く、実験なしで進められるのか気になる
  • 実装に関する論文を出版する予定があるのか気になる

    • 後で文献から引用しやすくなる
    • 主要ジャーナルがそのような論文を受け入れるのか気になる
    • 再現性に関する問いがあるなら受け入れられそうだ
  • このオープン版を商用環境で使えるようになってうれしい

    • 会社を始める素晴らしい方法だ
  • この実装の名前は変更したほうがよさそうだ

    • 実際にはAlphaFold3ではないからだ
    • DMから名称使用の差し止め要求を受ける可能性がある
  • モデルコード自体は課題の小さな一部にすぎない

    • 学習用計算資源と学習データのほうがはるかに大きな部分だ
    • Googleはおそらく他の誰よりも大規模な学習用計算資源にアクセスできる
  • 計算プロテオミクスに少し関わったことがある

    • あの分野は本当に次元が違う
  • 疑似コードだけ公開すれば十分ではないと誰が思っただろう

    • クローズドな科学に対抗する科学的な免疫システムを見られてうれしい
    • Googleの次の動きが気になる
  • ColabFoldに詳しいのか気になる

  • 次のステップが何なのか気になる

    • なぜ酵素設計に注力することにしたのか気になる