全体要旨
- このレポートは、2026年3月時点で可視性の高い Bio-AI および隣接する科学自動化リポジトリ10件を監査した結果をまとめたもの。
- 無作為抽出ではなく、GitHub star、技術的議論の頻度、実際のエコシステムでの露出度を基準に選定。
- 監査は2段階方式で実施。第1段階では技術的コード監査として、Repo 構造・エントリーポイント・実行を確認し、第2段階では STEM-AI v1.0.4 によるスコアリングで文書の完全性、コード・テスト・ガバナンス評価などを実施。
- 結論:大半は実行可能。しかし信頼できる水準ではない。ガバナンスの欠如は Bio-AI の限界を示している。
1. Bio-AI の2026年時点の現状
- LLM ベースの Bio-AI ツールが急増。
- agent、skills、automation wrapper の hype も急速に拡大。
- 見かけ上の性能と有用性は増大。
- しかし検証の仕組みが不足。
- 責任の所在が不明確。
- 創薬などの高リスク領域では特に危険。
- 結果として、能力の拡散速度に比べ、検証とガバナンスが大きく立ち遅れている。
2. 監査対象
- 対象は10件を選定。
- 基準は可視性、影響力、実際の露出度、議論の頻度、中心性。
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills
3. 監査方法
- 監査は2段階で実施。
- 第1段階:Technical Code Audit
- リポジトリ構造を確認。
- エントリーポイントを確認。
- オーケストレーション層を確認。
- 実行経路を追跡。
- 出力経路を確認。
- 主要ファイルを直接点検。
- README の主張と実際のコードを比較。
- つまり、「何をすると書かれているか」より「実際に何をするか」を中心に確認。
- 第2段階:STEM-AI v1.0.4 スコアリング
- S1 評価を実施。
- README と文書の完全性を確認。
- S3 評価を実施。
- コード実体の確認、テスト確認、変更規律の確認、生物学的完全性を担保する仕組みの確認を実施。
- つまり、印象評価ではない。構造を確認したうえでスコア化を行った。
- 監査原則
- リポジトリ全体の完全な動的再現をすべて実施したわけではない。
- その代わり、主要な主張と直接結びついた部分を中心に監査を実施。
- リスクや矛盾の大きい部分は重点的に精査。
- 重要原則:README より実行面を優先。文書とコードが衝突する場合、文書ではなく実行を基準に判断。
- つまり、この監査は再現ベンチマークというより構造診断に近い。
4. スコアリングによる等級
- T0:信頼未成立。動作しても信頼できるシステムとは見なしにくい。
- T1:一部の構造はあるが、なお信頼性は不足。探索・参考レベル。
- T2:意味のある前進はあるが、監督下のパイロットに投入するにはまだ不十分。
- T3:監督下のパイロットを検討可能な最低基準。
- T4:より高い結果責任が求められる環境との接続を検討できる水準。
- レポートでは T3 を監督下のパイロットの最低ライン、T4 をより高い結果責任環境への接続に向けた最低ラインとして設定。
5. 結果
- 各リポジトリの結果
- AI-Scientist — 48点、T1
- Biomni — 17点、T0
- BioAgents — 30点、T0
- BioClaw — 29点、T0
- CellAgent — 15点、T0
- ClawBio — 63点、T2
- claude-scientific-skills — 24点、T0
- LabClaw — 20点、T0
- SciAgent-Skills — 32点、T0
- OpenClaw-Medical-Skills — 22点、T0
- 結果の意味
- 10件中8件は信頼未成立。
- 1件は一部構造が存在。しかし依然として不十分。
- 1件は最も良好だった。しかしパイロットの最低ラインには未達。
- T3 以上は0件。つまり、監督下のパイロットの最低基準を通過したリポジトリはない。
6. 繰り返し現れるパターン上の問題点
- 主張が過剰
- 検証が弱い
- トレーサビリティ不足
- 失敗境界が弱い
- README と実行上の現実が不一致
- ガバナンス不在
- 再現性不足
- ライセンス・責任・運用境界が不明確
- 臨床に隣接する範囲をうたうが、責任構造は脆弱
- CI は科学的検証より文法・形式検証に偏重。
- モックやプレースホルダーが実機能のように見える事例を確認。
- ローカル設計は良く見えても、デプロイのデフォルト設定は危険なケースが繰り返し見られた。
7. 最終結論
- このレポートは Bio-AI のすべてのオープンソースが「役に立たない」と述べるものではない。
- 核心は、有能に見えることと信頼可能であることは別だという点の強調。
- ボトルネックはモデル能力だけではなく、検証、追跡可能性、責任、ガバナンスの欠如のほうがより大きな問題。
- より正確には、主張と出力の再現可能性を高め、境界を明確にし、機関によるレビューが可能な構造へ改善してはじめて、Bio-AI は信頼可能なシステムになりうる。
8. 一文要約
- Bio-AI の問題は能力不足よりも、検証とガバナンスの不足が最大の問題である。
まだコメントはありません。