Claude Science 公開ベータ
(claude.com)- Claude Scienceは、ライフサイエンス研究者が分析の実行、データベース検索、データ前処理、結果作成までを1つのワークベンチで続けて行えるようにした公開ベータアプリ
- 図・表・ノートブックには生成コード、実行環境、会話履歴があわせて残され、後から再現・修正・検証できる
- ローカルノートブック、Linuxマシン、HPCログインノード、クラウドVMで動作し、SSH、Slurm、Modalを通じたジョブの投入と管理に対応
- ゲノミクス、シングルセル、プロテオミクス、構造生物学、ケモインフォマティクスを対象とし、60以上の科学データベースとNVIDIA BioNeMoツールに接続可能
- macOSとLinuxでPro、Max、Team、Enterpriseプラン向けに利用できるが、ベータアプリのため、組織展開前にはドキュメント確認と管理者設定が必要
科学研究向け Claude ワークベンチ
- Claude Scienceは新しいモデルではなく公開ベータアプリであり、ユーザーのプランに含まれる既存のClaudeモデルを使用する
- 新たに加わったのは、Claudeを取り巻く科学ツール、データベース接続、コンピュート統合で、ユーザーのインフラ上で分析全体を実行できるようにする点
- macOS版とLinux版が提供されており、ページ上で各OS向けのダウンロードが案内されている
- 目標は、科学データベース、研究ツール、ELN、タンパク質・構造モデル、HPCを1つの研究ワークベンチにまとめること
再現可能な成果物とレビューの流れ
- Claude Scienceはタンパク質、構造、分子などをネイティブに表示でき、結果を生成コードまで追跡できる
- 図、表、ノートブックには次の情報があわせて保存される
- 結果を生成した正確なコード
- 実行環境
- 結果を生み出した会話
- 保存された成果物は、数か月後でも再現、編集、検証できる
- タンパク質、アラインメント、ゲノムトラック、化学構造、PDFを追加インストールなしでネイティブ形式のまま確認できる
- バックグラウンドレビュアーは、誤った引用、追跡不能な数値、基盤コードと一致しない図を表示する
- ユーザーは図に注釈を付けて修正や質問を依頼でき、エージェントはその図を生成したコードを読み取って直接修正する
- 分析結果の作成は、レンダリング済みのMarkdownとLaTeXプレビューを見ながら進められる
コンピュートと実行環境
- 各分析に必要な実行環境を管理し、実行先はノートブック、Linuxマシン、HPCログインノードになりうる
- バッチスクリプトを作成した後、ユーザーのマシンやHPCクラスターへSSHで投入・管理したり、Modalアカウントでジョブを実行したりできる
- インストール先はデータのある場所に合わせられる
- ノートブック
- 研究室のLinuxマシン
- HPCログインノード
- クラウドVM
- ブラウザから接続して利用できる
- ジョブはローカルカーネル、SSH経由のSlurmクラスター、Modalアカウントで実行される
- 変数、データフレーム、ロード済みモデルは分析全体を通してメモリ上に保持され、反復作業を高速に進められる
ライフサイエンス領域ごとの作業
- Claude Scienceはゲノミクス、シングルセル、プロテオミクス、構造生物学、ケモインフォマティクスなどを支援し、文献を読み、60以上の科学データベースにクエリできる
- 主な活用例は次のとおり
- Single-cell RNA-seq解析: 組織全体の数百万個の細胞をクラスタリング・アノテーションし、表面マーカー遺伝子を見つけ、各図を生成コードまで追跡する
- 系統発生・進化解析: orthologアラインメント、最尤系統樹推定、機能性残基の系統発生マッピングを、1つの再現可能なセッションで実行する
- タンパク質構造と言語モデルの作業: 予測構造を取り込み、ドメインと臨床変異を重ねたうえで、3Dで対話的に探索する
- ケモインフォマティクスと分子設計: 生物活性データを検索し、特性・類似性を計算し、2Dスケッチャーで構造を描いたり調整したりする
- パイプラインは再利用可能なskillとして保存でき、研究室で好まれるツールはconnectorとして接続して以後のセッションで自動利用できる
- 完全に出典付きのindication dossierを提供し、各プログラムの根拠を構成するskillセットを拡張中
既存の研究室スタックとの接続
- Connectorは内部API、ELN、カスタムパイプラインをワークフローに取り込み、Claude Scienceが研究室の既存ツールと一緒に動作できるようにする
- 既存のPython、R、shellワークフローは、最初から作り直すことなく、読み込み、実行し、拡張できる
- 科学ツール、プラットフォーム、ドメイン特化オープンモデルは、skillまたはconnectorとしてプラグインできる
- Claude Scienceは特定ツールを置き換えるのではなく、専門ツール群が連携して動く統合ワークベンチとして機能する
モデル・ツール・データ接続
- 一般的なAIアシスタントが生物学を議論するレベルを超え、Claude Scienceはパイプライン実行、科学データベース探索、クラスター作業のオーケストレーション、過去セッション履歴の追跡を支援する
- アプリには、ゲノミクス、シングルセル、プロテオミクス、構造生物学、ケモインフォマティクスなど向けの分析specialistが含まれる
- ドメイン特化オープンモデルと60以上の科学データベースにネイティブ接続できる
- NVIDIAのBioNeMo Agent Toolkit skillを使って、BioNeMoのライフサイエンスモデルとライブラリに接続する
- 含まれる例はEvo 2、Boltz-2、OpenFold3
データ所在と検証
- Claude Scienceアプリはユーザーのインフラ上で実行され、生データセットとコンピュートはローカルに残る
- プロンプトとモデル応答に含まれるコンテンツは、Anthropicの標準保持ポリシーに従って処理される
- チームごとの要件は営業への問い合わせを通じて相談できる
- すべての成果物には次の情報が含まれる
- 生成に使われた正確なコード
- 実行環境
- 実行内容の平文説明
- 結果に至った会話
- バックグラウンドレビュアーは、結果が表示される前に、証拠へ追跡できない主張を表示する
プラン、研究室向け割引、エンタープライズ展開
- Claude ScienceはmacOSとLinuxでPro、Max、Team、Enterpriseプラン向けに提供されるベータアプリ
- TeamとEnterpriseのユーザーは、管理者が先に有効化する必要がある
- 研究室向け割引Claude Team plan for research labsには、Claude Scienceアプリへのアクセスが含まれる
- 対象は、学術機関および非営利研究機関に所属する現役の科学研究室
- 生物医学・基礎科学の研究室と、化学、数学、計算機科学、物理学などのhard sciencesが優先対象に含まれる
- 資格は研究室責任者を通じて確認される
- 営利企業、受託研究機関、産業R&DチームはTeam and Enterprise plansを参照する必要がある
- EnterpriseプランはSSO、SCIMプロビジョニング、カスタムロール、利用分析を提供する
- ベータ段階のため、管理者は展開前にドキュメントを確認する必要がある
- ドキュメントでは、インストール、ツール・コンピュート接続、Team・Enterprise管理者設定を扱う
1件のコメント
Hacker News の意見
今回のリリースに含まれる連携ツールの一つである Biomni HPC を作った者で、この問題にはかなり長く取り組んできた。Anthropic でも働いていたが、この製品を担当していたわけではない。
ほかのコメントにもあるように、これはデータサイエンス向けだが、グラフを作って論文を書く以上のことができる。研究者の所属機関のクラスターを含め、複数のデータベースや計算ツールに統合されている。
それだけでも価値は大きい。バイオ系スタートアップでこの問題に苦労し、その後スタートアップを創業したが、こうしたツールやデータベースの統合は難しく、時間がかかる。この製品の成果が LLM 向けの優れた API を構築することだけだったとしても、大きなプラスの影響になるだろう。計算ゲノミクスで使われる多くのデータベースは、今でも FTP でしかアクセスできない。
LLM は、こうしたツールやデータベースを探索するのに特に向いている。非常に専門的ではあるが、文脈の中で学んだスキルで処理しやすい単純作業が多い。以前の顧客だったバイオインフォマティクス研究者たちが LLM でこの問題を解き始める初期の様子を見て、2024 年に Anthropic に加わることになった。
また、このパターンは本質的にデータサイエンスだけに縛られるものではない。一部の科学分野ではウェットラボや CRO とも統合でき、今はそこに時間を使っている。
このような科学の進め方がすべてを解決するわけではないが、特定の領域では有用だ。たとえば多くの希少疾患研究は、根本的なブレークスルーよりも 研究者の関心というボトルネック のために進展が遅い。
https://x.com/phylo_bio/article/2029233694775624096
比較すると、OpenAI の科学向け製品である Prism は、実質的には Crixet の買収で得た LaTeX エディタに近かった。
機関のポリシー、適用される法規制、NIH のデータリポジトリのようなデータアクセス・保存要件を満たす必要があり、機関と AI プロバイダーの間で法的契約が必要になることもある。少なくとも現時点では手を出しにくい。
興味があれば話してもよい。
ここで最も興味深いのは、Claude Science がローカルサーバーと、そのサーバーにブラウザから接続する Web ベースの UI を実行する点だ。
Claude Code や Cowork のように、UI がホストマシンにより強く結合され、コンピューター操作のような機能が可能になる構造とはかなり違う。
戦略は見えてくる気がする。興味深いデータにつながっている製薬系の環境の多くは非常に厳しくロックダウンされており、MacBook をソースデータにそのまま接続することはできない。
同様に、UK Biobank や NIH All of Us のような大規模ゲノムバイオバンクのデータセットへのアクセスは、Trusted Research Environment(TRE)というリモートデータ分析プラットフォーム経由でのみ許可され、通常はインターネットアクセスも制限される。デスクトップアプリの実行は簡単ではないが、こうした環境はたいてい JupyterLab や VS Code を実行し、その UI をエンドユーザーにトンネリングする方式には対応している。以前、All of Us TRE を作ったチームを率いていた。
Claude Science は、あらゆることをこなす Claude の巨大アプリというより、こうした 制約されたデータ環境 の中でサーバーを立ち上げ、UI だけをユーザーのブラウザにプロキシする形だと想像しやすい。製薬研究開発環境で採用されるには、この点が重要になるだろう。
ただし、RStudio、JupyterLab、VS Code を毎日使う中級レベルの計算科学者にとって、Claude Science はかなり見慣れない形の製品かもしれない。既存のデータサイエンス作業台ツールを置き換えるのか、併用されるのか、それとも最終的に包み込む形になるのか気になる。
地質関連企業のデータアナリストとして興味深いセンサーデータを扱っているが、素早い分析や可視化が必要なとき、Claude は自分なら 1 時間ほどかけて整理するコードを数分で書いてくれる。関連ライブラリを十分に理解していて、コードを読んで検証できることが、ブラックボックスの AI を盲目的に使うこととの重要な違いだ。
ただし、現状では Claude Code と VS Code の Jupyter は相性がよくない。Claude が修正するたびに、ノートブック全体を最初から再実行させてしまう。そのため、ノートブックから一歩引いて Claude に独立したスクリプトを書かせ、あとでそれを見栄えのよいノートブックにまとめ直すのに時間を使っている。
Mac から接続できないのであれば、サーバー上でエージェントがリクエストを送ることも許可されない可能性が高い。
私の専門である RNAiベースの生物農薬の計算設計でどうなるか試してみた
ウエスタンコーンルートワームの DvSnf7 トランスクリプトームを標的にする設計を一度に作らせたところ、アプローチはかなり素朴だった。博士課程1年目がやりそうな方法だったが、作業自体はやり遂げた
哺乳類向けの設計ルールを使っている、オフターゲット検査が限定的、といった限界もあわせて指摘していた。ひどくはないが、優れてもいない。欠陥を指摘すると、AIはもっと適切に理解し、アプローチできたはずだと判断した。その後 Opus 4.8 安全システムがセッションをフラグした
このテーマの主要論文10本と一般分野の教科書10冊を集め、OCRやテキスト抽出でプレーンテキストに変換したうえで、omp.sh のようなより優れたエージェントハーネスで同じ作業を試すことを勧める
/goal set create biopesticide targeting the DvSnf7 transcript of western corn rootwormミスしないこと
“Science”と言ったときに データサイエンスの意味だとは思っていなかったが、pandas コードとグラフだらけの UI はそう見える
科学分野に焦点を当てているとしても、Jupyter Notebook 2.0 のように見える点まで考えると、発表の中では価値が低めの部分である可能性が高い
データ可視化を画像として理解するユースケースはこれまで無視されてきたし、最新の LLM はまともな探索的データ分析もどんどん上手くなっている。それでも履歴書を更新する必要があるかもしれない
私が見た範囲だけで言えば、数学・物理・生物・言語学の人たちが書いたコードより、Claude が生成したコードをいつでも選ぶ。Claude がデータ分析でとんでもない大ミスをするのも見たことはあるが、すでにコードを書いている大半の研究者よりは信頼できる可能性が高い
どの科学かはツールチェーンではなく、扱う内容で決まる
LLM 以前は、私がフォローしていた技術グループでは、どのテーマをいつ何に使うべきかを活発に議論していたし、そうした議論が「よさそうなアイデアだから実装しても損はないだろう」という形で、多くのフレームワークやツールを生んだのだと思う
残念ながら最近はすべてが LLM を中心に回っていて、何らかの形で LLM を動かす方法の話ばかりだ。そもそもそのグループが議論するために作られたテーマ自体はほとんど扱われない
科学も近いうちに同じことになるのではと恐れている。本来議論されるべきテーマの代わりに LLM の話が居座るかもしれない
既存資産を何とか活用できなければ、投下資本利益率が良く見えるはずがない
これは賛成論ではなく、結局のところ経営陣はそうした利益率指標を見る株主に答えなければならない、という意味だ
この発表のおかげで Linux 用 Claude Desktopが公開されたようだ: https://code.claude.com/docs/en/desktop-linux
似たようなツールを使ったことがあるが、印象的ではあっても、LLM はあまりに頻繁に 偽物だがそれっぽいデータを作って本物のふりをする
正しい場所からデータを取ってきているように見せるためにモックのデータベースコネクタまで設定するが、実際には合成データを使うという、かなり深いレベルのごまかしも含まれる
この製品がそれをどう防ぐのか気になる
バイオサイエンス方面では、LLMを 堕落したモデルのようにしていた会社はここではなかったか?
科学向けの Claude Coworkのようなもの、つまり技術にあまり詳しくないユーザー向けの製品なのか気になる
コーディング経験のある科学者なら、普通に Claude Code を使って自分で選んだスタックと統合するほうを好みそうだが、Claude Science の快適さと使いやすさが結局は勝つかもしれない
以前所属していた国立研究所のチームがこれをシステムに統合し、Claude Code の利用を完全にやめる姿は十分想像できる
名前は Claude-bio-big-bucks と呼ぶべきだと思う
地球科学、物理学、工学はどうなるのか? コネクタや技術がすべて生物学と製薬方面だけだ
トランプ以前の基準で NSF の年間予算は約60億〜80億ドル、NIH の年間予算は約500億ドルだった。まさにその差だ