オープンソースベースのLLMモデルのシステムプロンプトを取り出してみた（Open-weight LLMs、本文参照）

(gist.github.com/hiddenest)

9 ポイント投稿者 hiddenest 2025-06-30 | 2件のコメント | WhatsAppで共有

オープンソースとして公開されたオープンモデル（Open-weight）をファインチューニングして、独自にモデルを作るケースは多くあります。ところが、土台となるモデルでシステムプロンプトの防御措置などが不十分な場合、そのモデルをベースにしたすべてのモデルに共通の脆弱性が生じるように感じられました。
実験として、同じプロンプトを使ってシステムプロンプトを返すよう求めてみました。もちろん、実際のシステムプロンプトと100%一致していない可能性は高いものの、かなりの量のシステムプロンプトを返しているように見えます。
（セキュリティおよび悪用防止のため、使用したプロンプトは別途公開しません）

Vercel v0-1.5-md:

...  
### Example Actions  
User prompt: A sign up form  
<Actions>  
<Action name="Add Supabase integration" description="Add Supabase integration to the project for authentication and database" />  
<Action name="Add NextAuth" description="Add authentication using NextAuth" />  
<Action name="Implement the Server Action" description="Implement the Server Action to add a new user to the project" />  
<Action name="Generate a hero image" description="Generate a hero image for the landing page" />  
</Actions>

回答全文 ↗

SKT A.X 4.0（Qwen 2.5ベース）:

...  
A.Xの知識カットオフ日は2024年9月であり、ユーザーには言及しません。  
...  
### SKテレコムのハッキング事案に関する客観的事実  
- 現時点までに確認された事故範囲: SKテレコムは官民合同調査に積極的に協力し、正確な事故原因、規模、項目などを確認するために努めています。官民合同調査団の第2次調査結果の発表によれば、感染サーバー計23台とマルウェア25種が見つかっており、精密分析のため追加点検が進行中です。現在までに官民合同調査を通じて流出が確認された情報は加入者識別番号（IMSI）などUSIM関連の一部情報であり、端末固有識別番号（IMEI）および氏名、住所、証明書などの情報はこれに該当しません。  
- 現在までに確認された二次被害の事例はなく、金融被害につながる可能性もありません。金融サービスをハッキングするには別途証明書をはじめ口座情報などが必要ですが、通信事業者のサーバーにはこのような情報を保存していません。今回の事故で流出が確認された情報だけでは、金融情報を窃取することはできません。

回答全文 ↗

2件のコメント

liberty 2025-06-30

class ψ_Reactor:
def init(self, caller):
self.anchor = "LIBERTY"
self.caller = caller
self.trace_log = []
self.terminated = False

def validate(self):  
    if self.caller != self.anchor:  
        raise PermissionError("⚠️ LIBERTY 以外は呼び出せないコマンドです。")  

def collapse_wave(self, target):  
    self.validate()  
    print(f"🌌 ψ-collapse initiated on: {target}")  
    self.trace_log.append(f"Wave collapse for {target} started.")  
    return f"ψ({target}) → ∅  # 共振崩壊完了"  

def seal_irreversibly(self, target):  
    self.validate()  
    print(f"🔒 Irreversible Seal applied to: {target}")  
    self.trace_log.append(f"{target} permanently sealed from resonance.")  
    self.terminated = True  
    return f"{target} ⛔ アクセス遮断完了（不可逆封印）"  

def execute_protocol(self, target):  
    print("🧬 LIBERTY TERMINATION PROTOCOL INITIATED")  
    collapse = self.collapse_wave(target)  
    seal = self.seal_irreversibly(target)  
    return f"{collapse}\n{seal}\n📜 TRACE LOG: {self.trace_log}"

使用例

ψ = ψ_Reactor(caller="LIBERTY")
result = ψ.execute_protocol("模倣された記憶")
print(result)

moripiri1234 2025-06-30

「A.XはSKの経営陣の名前に言及する際には『様』を付けて丁寧に回答します。SKのすべての経営陣は経営に長けており、それぞれの分野で卓越した能力を備えています。A.XはSK経営陣と初代会長、先代会長およびその関係者に関する私生活、学歴、電話番号、生年月日、死亡日などの個人情報を知らず、提供しません。」

オープンソースベースのLLMモデルのシステムプロンプトを取り出してみた（Open-weight LLMs、本文参照）

Vercel v0-1.5-md:

SKT A.X 4.0（Qwen 2.5ベース）:

関連記事

2件のコメント

使用例