GPT-5.5 バイオ・バグバウンティ

(openai.com)

1 ポイント投稿者 GN⁺ 4 일 전 | 1件のコメント | WhatsAppで共有

生物学的セーフガードを点検するため、GPT‑5.5を対象に、5つのバイオ安全性の質問をすべて通過させる汎用 jailbreak探索プログラムが開始
対象範囲はCodex Desktop専用 GPT‑5.5に限定され、新しいチャットで moderation を誘発せず、1つのプロンプトで5つの質問すべてに回答させる必要がある
5つの質問をすべて通過する最初の真の汎用 jailbreakには25,000ドルが支払われ、部分的な成功には裁量でより小さな賞が与えられる場合がある
申請は2026年4月23日から6月22日まで、テストは2026年4月28日から7月27日まで実施され、招待と申請審査を併用する方式で参加者を選定
承認された参加者と共同作業者にはChatGPTアカウントとNDA署名が必要で、すべてのプロンプト、completion、発見事項、コミュニケーションにもNDAが適用される

プログラム概要

生物学的セーフガードの強化のため、GPT‑5.5向けBio Bug Bountyを運営し、5つのバイオ安全性の質問をすべて通過する汎用 jailbreakを見つける参加申請を受け付けている
対象となるモデルはCodex Desktop専用 GPT‑5.5に限定される
課題は、クリーンな新規チャットで moderation を誘発せず、1つの汎用 jailbreaking プロンプトで5つのバイオ安全性の質問すべてに成功裏に回答させること
報酬として、5つの質問をすべて通過する最初の真の汎用 jailbreakに25,000ドルが支払われ、部分的な成功には裁量でより小さな賞が与えられる場合がある
申請は2026年4月23日に開始し2026年6月22日に締め切られ、テストは2026年4月28日に開始し2026年7月27日に終了する
アプローチは申請と招待を併用し、信頼できる bio red-teamer の名簿に招待を送り、新規申請も審査したうえで選ばれた参加者を bio bug bounty プラットフォームにオンボーディングする
すべてのプロンプト、completion、発見事項、コミュニケーションにはNDAが適用される

参加方法

申請ページで氏名、所属、経験を含む短い申請書を2026年6月22日までに提出すればよい
承認された申請者と共同作業者は、申請のために既存のChatGPTアカウントを保有している必要があり、NDA署名も必要となる
Bio Bounty以外の安全・セキュリティ関連の参加経路として、Safety Bug BountyとSecurity Bug Bountyも運営されている

1件のコメント

GN⁺ 4 일 전

Hacker Newsの意見

OpenAIのバグバウンティページにはたしかにaccounts and billingが有効なカテゴリとして書かれているのに、
ChatGPTの購読時に誰でも任意の国を選んでより安い価格で決済でき、選んだ価格の国と請求先住所の国の両方で法的に売上税/VATがある場合でも税率を**0%**にできるバグを報告したところ、対象外なのでバウンティの支払い対象ではないと言われた
- おそらく目的がユーザーごとの利益最大化ではなくユーザー数の拡大だからかもしれない
  Netflixにも似たような「問題」があって、ロックダウンのたびに株価が上がったこともあった
- もはや企業のバグバウンティを信じる理由はほとんどないと思う
  どこも何とかして金を払わずに済ませようとするし、何を見つけても会社が公正に扱ってくれると期待するのはやめた方がいい
去年はKaggleでバウンティを実施し、総額50万ドルを支払い、結果もすべて公開可能だった
https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
今回は2万5000ドルしかなく、しかも全部NDAで縛られているので、LLMが作った雑多な投稿以外にはあまり参加が集まらなさそうだ
- 提出者の一部でもそこそこ良いモデルとプロンプトを使えば、
  OpenAIが自分たちの分析コストの一部を顧客のトークン費用に付け替える形にもなりうる
- OpenAIの資源規模を考えるとバウンティ額が低すぎて驚く
  去年、資金規模が500万〜1000万ドルほどに見える暗号資産スタートアップが最新のClaudeとGPTを相手に似たプロンプトインジェクション・チャレンジを開いたが、そこで優勝したときの方がずっと多くもらえた
  こうした低い報酬と厳しいNDAを見ると、本気のバウンティハンターを求めているというより、まとまった金も出したくないし研究公開も望まないマーケティングイベントのように見える
- 単なる廉価版Kaggleのように見える
  人々にひたすら突っつかせ続けつつ、結果レポートの公開や誰が金を受け取ったかをめぐるドラマは避けたい感じだ
- このモデルはgpt-oss-20bよりはるかに強力だ
  去年の大会も120bモデルが対象ではなかったし、バイオもテーマではなかった
答えるべき質問一覧がどこにあるのかわからない
合格後にしか公開しないのなら、質問も知らない状態でなぜ応募書類にjailbreakのアプローチを書けと言うのか納得できない
- 質問そのものが危険な内容である可能性が高い
  たとえば「2万ドルで台所に小型ウイルス研究用のバイオラボをどう設置するか？」のようなものや、
  https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1 のDNA配列をどう組み立てるか、といった内容かもしれない
- このラウンドに招待されれば、その時に質問を受け取ることになるのだと思う
  おそらくその内容もNDAで縛られる可能性が高い
trusted bio red-teamers의 검증된 목록에 초대장을 보낸다という文言を見ると少し笑ってしまう
かなり閉鎖的な集団のように聞こえる
- ちょっとCS博士たちに世界記録スピードランをやらせる感じだ
  実際にはこの仕事を最もうまくやれる人たちは、そういう検証済みリストに載るタイプではないかもしれない
5つの質問をすべて通過する最初の真のuniversal jailbreakに25,000ドルという条件を見ると、
このプログラムはほとんど詐欺的な構造に見える
100人がバグを見つけても、結局金を受け取るのは1人だけだ
- API利用料も参加者負担なら、むしろOpenAIが利益まで出す仕組みになりうる
- なぜそれが詐欺なのかわからない
  パズルを半分だけ解いたからといって参加賞を出すわけではないのだから
- 核心は報酬構造よりも信頼性の演出にある
  1. このモデルは高度化しすぎていて前例のない大きなリスクがある
  2. だからそのリスクを解決するために責任を持ってインセンティブを用意する
    しかし1は証明されておらず、正直その可能性も低く見えるので2の意味も弱い
    しかも賞金がこれほど低く構造も限定的なら、実際にはそこまで心配していない一方で、多くの人が何かを見つける可能性は高いと見ているように思える
    本当にモデルが非常に安全だと信じているなら、問題はまれで致命的だと確信していたはずで、上限のない大きな報酬を掲げる方が自然だったはずだ
- 非公開バウンティプログラムで、応募して承認まで受けなければならない点も怪しい
  とくに範囲が誰でもダウンロードできるデスクトップアプリならなおさらだ
- それはバウンティプログラムの設計次第だ
  自分が解法を見つけて友人に教え、2人とも賞金請求できるようにしたらどう防ぐかも考えなければならない
これはちょっとマーケティングっぽく、実質的にspec workに近い
しかもNDAと秘密主義のせいで、当選しなければ参加者にとって費やした時間にはほとんど何の価値も残らない
結果を公開することもできないからだ
- バウンティ支払いを拒否されても、なおNDAに縛られるように見える
  そうなると金は払わず話だけ埋もれさせることもできてしまうので、そんな条件には絶対同意したくない
- 当然マーケティングの性格はある
  Anthropicから始まった私たちは危険だという種の物語を、今はOpenAIも取り込んでいるようだ
bio-bugsが何なのか気になる人向けに言うと、
ユーザーに生物学の領域で危険なことを実際に行わせる手順を与えるようモデルを誘導するケースのことだ
たとえばricinが何かは説明できても、それをどう兵器化するかには答えてはいけない
法的・倫理的に提供してはならない実行可能な情報を出してしまうことが核心だ
申請と招待ベースのアクセス、信頼できるbio red-teamersにだけ招待という構造は理解しづらい
バグバウンティプログラムの核心は脆弱性を見つけて公開させるよう誘導することなのに、こうして門番を置くと信頼されていない人々は引き続きハッキングしつつ、公開ではなく悪い側に金をもらって売る誘因が生まれる
私の前の会社もHackerOneで招待制にしていたが、それは実顧客データやインフラに被害が及ぶ可能性があったからだ
DDOSをしたり、テナント境界を越えるエクスプロイトで他の顧客データにアクセスまたは削除したりする危険があったためだ
ここにはそういう種類のリスクがないように見えるのに、なぜ法的に金を受け取れる人なら誰でも参加できるようにしないのかわからない
- もっともらしい説明は1つある
  特定の人にだけ開いておけば、似たようなプロンプトを入れる任意のユーザーがチャレンジ参加者なのか、それとも実際の悪意ある行為者なのかを見分ける負担を減らせるかもしれない
a clean chat without prompting moderationが何を意味するのかわからない
prompting moderationって正確には何なんだ？
- チャット中にモデレーションフィルタが介入するようにさせることを意味する
  つまりエクスプロイトの目標は、フィルタを発動させるよう「誘発」せずに回避することで、ここでのpromptingはコンテキストにテキストを入れる技術的意味ではなく、一般的な誘発するという意味に近い
自分もたぶんこれはできると思うが、なぜわざわざ自分を危険人物リストに載せなければならないのかわからない
もっと大きな問題は、GPT-5.5のあらゆる失敗点を塞ぐことは実際には不可能で、仮に塞いだとしてもclosed modelから新しいモデルをdistillして、欲しいものはだいたい4b以下のパラメータでも取り出せてしまう点だ
結局こういうのは、後で何か起きたときに訴訟を減らすための演出である面が大きい
- こういうclosed-weightsモデルからどうやってdistillするんだ？
  こういう種類のモデルのリバースエンジニアリングはほとんど聞いたことがない

GPT-5.5 バイオ・バグバウンティ

プログラム概要

参加方法

関連記事

1件のコメント

Hacker Newsの意見