Prompt Injectionとは何か

xguru · 2023-05-17T11:05:01+09:00

Simon Willisonが公開した動画、スライド、台本 Prompt Injection = 「AIモデルを基盤に構築されたアプリケーションに対する攻撃」。「AIモデルそのものへの攻撃ではない」翻訳インジェクションの例や、Edge Sidebarで動作するBingを攻撃するページなどのデモ自分のAIアシスタントが他人の命令を聞いてしまったら？（例として、パスワード再設定メールをどこかへ転送しろというプロンプトを説明）これに対する解決策としてPrompt beggingのようなものもあるが、あまりうまくいかない私の提案は……あまり優れてはいないが、Dual Language Modelパターンである程度は解決できそう AIアシスタントを2つの異なるLLMで構成すること：Privileged LLM と Quarantined LLM Privileged LLM ツールにアクセス可能信頼できる入力のみを処理 Quarantined LLM に指示するが、その入力や出力は見ないトークンだけで処理「Summarize text $VAR1」「Display $SUMMARY2 to the User」 Quarantined LLM 信頼できない入力に対するタスクを処理（要約などの作業）他の何にもアクセスできないすべての入力と出力は汚染されていると仮定し、Privileged LLM には何も直接渡さないプロンプトインジェクションは、理解していなければ対処方法を実装することが不可能な、非常に深刻なセキュリティ脆弱性言語モデルの上に構築されたすべてのアプリケーションは、基本的にこの問題に脆弱プロンプトインジェクションには解決策がなく、アプリケーションを安全に開発できないなら、「No」と言わなければならないこともある開発者として「それはできません」と言う人間になるのは本当に嫌だが、この場合は本当に重要だと思う

(simonwillison.net)

21 ポイント投稿者 xguru 2023-05-17 | まだコメントはありません。 | WhatsAppで共有

Simon Willisonが公開した動画、スライド、台本
Prompt Injection = 「AIモデルを基盤に構築されたアプリケーションに対する攻撃」。「AIモデルそのものへの攻撃ではない」
翻訳インジェクションの例や、Edge Sidebarで動作するBingを攻撃するページなどのデモ
自分のAIアシスタントが他人の命令を聞いてしまったら？（例として、パスワード再設定メールをどこかへ転送しろというプロンプトを説明）
これに対する解決策としてPrompt beggingのようなものもあるが、あまりうまくいかない
私の提案は……あまり優れてはいないが、Dual Language Modelパターンである程度は解決できそう
- AIアシスタントを2つの異なるLLMで構成すること：Privileged LLM と Quarantined LLM
- Privileged LLM
  - ツールにアクセス可能
  - 信頼できる入力のみを処理
  - Quarantined LLM に指示するが、その入力や出力は見ない
  - トークンだけで処理「Summarize text $VAR1」
  - 「Display $SUMMARY2 to the User」
- Quarantined LLM
  - 信頼できない入力に対するタスクを処理（要約などの作業）
  - 他の何にもアクセスできない
  - すべての入力と出力は汚染されていると仮定し、Privileged LLM には何も直接渡さない
プロンプトインジェクションは、理解していなければ対処方法を実装することが不可能な、非常に深刻なセキュリティ脆弱性
言語モデルの上に構築されたすべてのアプリケーションは、基本的にこの問題に脆弱
プロンプトインジェクションには解決策がなく、アプリケーションを安全に開発できないなら、「No」と言わなければならないこともある
開発者として「それはできません」と言う人間になるのは本当に嫌だが、この場合は本当に重要だと思う

Prompt Injectionとは何か

関連記事

まだコメントはありません。