2026年 Bio-AI オープンソース監査レポート：10件を点検したところ、「ほとんどは動くが信頼しがたかった」

(flamehaven.space)

2 ポイント投稿者 flamehaven01 2026-03-25 | まだコメントはありません。 | WhatsAppで共有

全体要旨

このレポートは、2026年3月時点で可視性の高い Bio-AI および隣接する科学自動化リポジトリ10件を監査した結果をまとめたもの。
無作為抽出ではなく、GitHub star、技術的議論の頻度、実際のエコシステムでの露出度を基準に選定。
監査は2段階方式で実施。第1段階では技術的コード監査として、Repo 構造・エントリーポイント・実行を確認し、第2段階では STEM-AI v1.0.4 によるスコアリングで文書の完全性、コード・テスト・ガバナンス評価などを実施。
結論：大半は実行可能。しかし信頼できる水準ではない。ガバナンスの欠如は Bio-AI の限界を示している。

1. Bio-AI の2026年時点の現状

LLM ベースの Bio-AI ツールが急増。
agent、skills、automation wrapper の hype も急速に拡大。
見かけ上の性能と有用性は増大。
しかし検証の仕組みが不足。
責任の所在が不明確。
創薬などの高リスク領域では特に危険。
結果として、能力の拡散速度に比べ、検証とガバナンスが大きく立ち遅れている。

2. 監査対象

対象は10件を選定。
基準は可視性、影響力、実際の露出度、議論の頻度、中心性。
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills

3. 監査方法

監査は2段階で実施。
第1段階：Technical Code Audit
- リポジトリ構造を確認。
- エントリーポイントを確認。
- オーケストレーション層を確認。
- 実行経路を追跡。
- 出力経路を確認。
- 主要ファイルを直接点検。
- README の主張と実際のコードを比較。
- つまり、「何をすると書かれているか」より「実際に何をするか」を中心に確認。
第2段階：STEM-AI v1.0.4 スコアリング
- S1 評価を実施。
- README と文書の完全性を確認。
- S3 評価を実施。
- コード実体の確認、テスト確認、変更規律の確認、生物学的完全性を担保する仕組みの確認を実施。
- つまり、印象評価ではない。構造を確認したうえでスコア化を行った。
監査原則
- リポジトリ全体の完全な動的再現をすべて実施したわけではない。
- その代わり、主要な主張と直接結びついた部分を中心に監査を実施。
- リスクや矛盾の大きい部分は重点的に精査。
- 重要原則：README より実行面を優先。文書とコードが衝突する場合、文書ではなく実行を基準に判断。
- つまり、この監査は再現ベンチマークというより構造診断に近い。

4. スコアリングによる等級

T0：信頼未成立。動作しても信頼できるシステムとは見なしにくい。
T1：一部の構造はあるが、なお信頼性は不足。探索・参考レベル。
T2：意味のある前進はあるが、監督下のパイロットに投入するにはまだ不十分。
T3：監督下のパイロットを検討可能な最低基準。
T4：より高い結果責任が求められる環境との接続を検討できる水準。
レポートでは T3 を監督下のパイロットの最低ライン、T4 をより高い結果責任環境への接続に向けた最低ラインとして設定。

5. 結果

各リポジトリの結果
- AI-Scientist — 48点、T1
- Biomni — 17点、T0
- BioAgents — 30点、T0
- BioClaw — 29点、T0
- CellAgent — 15点、T0
- ClawBio — 63点、T2
- claude-scientific-skills — 24点、T0
- LabClaw — 20点、T0
- SciAgent-Skills — 32点、T0
- OpenClaw-Medical-Skills — 22点、T0
結果の意味
- 10件中8件は信頼未成立。
- 1件は一部構造が存在。しかし依然として不十分。
- 1件は最も良好だった。しかしパイロットの最低ラインには未達。
- T3 以上は0件。つまり、監督下のパイロットの最低基準を通過したリポジトリはない。

6. 繰り返し現れるパターン上の問題点

主張が過剰
検証が弱い
トレーサビリティ不足
失敗境界が弱い
README と実行上の現実が不一致
ガバナンス不在
再現性不足
ライセンス・責任・運用境界が不明確
臨床に隣接する範囲をうたうが、責任構造は脆弱
CI は科学的検証より文法・形式検証に偏重。
モックやプレースホルダーが実機能のように見える事例を確認。
ローカル設計は良く見えても、デプロイのデフォルト設定は危険なケースが繰り返し見られた。

7. 最終結論

このレポートは Bio-AI のすべてのオープンソースが「役に立たない」と述べるものではない。
核心は、有能に見えることと信頼可能であることは別だという点の強調。
ボトルネックはモデル能力だけではなく、検証、追跡可能性、責任、ガバナンスの欠如のほうがより大きな問題。
より正確には、主張と出力の再現可能性を高め、境界を明確にし、機関によるレビューが可能な構造へ改善してはじめて、Bio-AI は信頼可能なシステムになりうる。

8. 一文要約

Bio-AI の問題は能力不足よりも、検証とガバナンスの不足が最大の問題である。

まだコメントはありません。

まだコメントはありません。