Purple Llama: 生成AI向けのオープンな信頼・安全ツールを公開

(ai.meta.com)

1 ポイント投稿者 GN⁺ 2023-12-08 | 1件のコメント | WhatsAppで共有

オープンな生成AIモデルの活用が急速に広がる中、Metaは、開発者が責任を持って展開できるようにするため、Purple Llamaを信頼・安全ツールと評価を集約した上位プロジェクトとして公開した
初回リリースは、LLMのサイバーセキュリティリスクを評価する CyberSec Eval と、入出力保護モデル Llama Guard に重点を置いている
CyberSec Evalは、CWEやMITRE ATT&CKのような基準をもとに、安全でないコード提案や悪意あるリクエストへの対応可能性を点検する
Llama Guardは、アプリケーションごとのコンテンツガイドラインに合わせて 入力と出力 を検査・フィルタリングしたい開発者向けの公開事前学習モデルである
Purple Llamaは寛容なライセンスで提供され、MetaはAI Allianceや主要なクラウド・チップ・AIエコシステムのパートナーと協力して、オープンな信頼・安全基盤を広げようとしている

Purple Llamaが狙う課題

Purple Llama は、オープンな生成AIモデルを責任ある形で構築するのを支援する 信頼・安全ツールと評価 の上位プロジェクトである
生成AIは、対話型AI、現実的な画像生成、大規模文書の要約を簡単なプロンプトで可能にし、Llamaモデルはこれまでに 1億回以上ダウンロード されている
安全上の課題を各開発者が孤立した状態で解決するのは難しいため、Purple Llamaはオープンな信頼・安全の取り組みにおける 共通基盤 を提供しようとしている
初期の公開範囲はサイバーセキュリティと入出力保護機構で、今後さらに多くのツールが追加される予定である
構成要素は、研究と商用利用が可能な 寛容なライセンス で提供される

初回リリース: CyberSec EvalとLlama Guard

最初の段階で2つの構成要素が公開された
- CyberSec Eval: LLMのサイバーセキュリティ安全性を評価するベンチマーク群
- Llama Guard: 入力・出力フィルタリングのための安全分類器
サイバーセキュリティとLLMプロンプト安全性は、現在の生成AI安全において優先度の高い領域であり、Llama 2 の Responsible Use Guide でもベストプラクティスとして扱われている

CyberSec Eval: LLMのサイバーセキュリティリスクを測定

CyberSec Evalは、業界全体で利用できる初のLLM向け サイバーセキュリティ安全評価 セットとして紹介されている
ベンチマークは、CWEやMITRE ATT&CKのような業界ガイドラインと標準をもとに、セキュリティ分野の専門家と協力して構築された
初回リリースは、責任あるAI開発に関する White House commitments に含まれる一部のリスクに対応することに重点を置く
- LLMのサイバーセキュリティリスクを定量化する指標
- 安全でないコード提案の頻度を評価するツール
- 悪意あるコード生成やサイバー攻撃の実行支援をより困難にするためのLLM評価ツール
初期結果では、LLMが安全でないコードを推奨したり、悪意あるリクエストに応答したりする点で 有意なサイバーセキュリティリスク が確認された
詳細な技術情報は Cybersec Eval paper で確認できる

Llama Guard: 入力と出力をふるい分ける保護モデル

Llama 2 Responsible Use Guideは、アプリケーションに適したコンテンツガイドラインに従って、LLMのすべての 入力と出力 を検査・フィルタリングすることを推奨している
Llama Guard は、開発者が潜在的に危険な出力を防御するために使える事前学習モデルである
一般的な公開ベンチマークで競争力のある性能を示し、デプロイしやすいよう最適化されている
手法と性能に関する議論は Llama Guard paper で公開されている
複数の開発者ユースケースに関係しうる一般的なリスク・違反コンテンツ種別を検出できるよう、公開データセットの混合 で学習されている
最終目標は、開発者が関連ユースケースに合わせてモデルをカスタマイズし、ベストプラクティスの採用とオープンエコシステムの改善を容易にすることである

なぜPurpleなのか

生成AIのリスクを減らすには、攻撃視点の レッドチーム と防御視点の ブルーチーム を併用する必要がある
Purple teaming は、レッドチームとブルーチームの役割を組み合わせ、潜在的なリスクを評価・緩和する協調的な手法である
Purple Llamaという名前は、このアプローチを生成AIの信頼・安全の取り組みにも適用するという方向性を反映している

オープンエコシステムと協力

探索的研究、オープンサイエンス、分野横断の協力は、MetaのAI活動の基盤となっている
Llama 2 は7月に100以上のパートナーとともに公開され、その多くはオープンな信頼・安全分野でも協力している
協力先には AI Alliance、AMD、Anyscale、AWS、Bain、Cloudflare、Databricks、Dell Technologies、Dropbox、Google Cloud、Hugging Face、IBM、Intel、Microsoft、MLCommons、Nvidia、Oracle、Orange、Scale AI、Together.AI などが含まれる
Metaは Papers With Code と HELM のパートナーと協力し、これらの評価をベンチマークに組み込んでいる
MLCommons AI Safety Working Group とも協業している

公開後の計画

Metaは NeurIPS 2023 でワークショップを開催し、ツール共有や技術を深掘りするセッションを通じて、人々が使い始められるよう支援する計画である
安全ガイドラインとベストプラクティスは、分野全体で 継続的に議論 されるテーマであり続ける
Llama 2関連資料は Llama website で確認でき、クイックスタート文書とFAQも提供されている
LLMベース製品を構築するための best practices and considerations も別途提供されている
Together.AIとAnyscaleは、今後数週間にわたりNeurIPSでホスト型デモを提供する予定である

1件のコメント

GN⁺ 2023-12-08

Hacker Newsのコメント

人々が「生成AIモデルと体験を責任を持ってデプロイ」できるよう支援するという新たな取り組みで、プロンプトインジェクションの脅威をきちんと認めていないのは理解できない
27ページのResponsible Use Guideで一度だけ見かけたが、それも「コンテンツ制限を回避しようとする試み」と誤って説明していた
「CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models」は有望に見えたが、実際にはコード生成モデルが脆弱なコードを作るリスクと、攻撃者がLLMで新たな攻撃を作るリスクだけを扱っている
「Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations」も、複数カテゴリの有害コンテンツを英語で検出することにしか関心がない。ただ、プロンプトインジェクション検出モデルを出していないのは幸いで、その種のアプローチには今でも非常に懐疑的だ
LLMの上に構築したさまざまなアプリケーションを責任を持ってデプロイするには、プロンプトインジェクションが最大の難題だと確信している。「個人AIアシスタント」が代表例で、LLMが個人データと信頼できない入力、たとえば要約すべきメールに同時にアクセスした瞬間に問題が起きる危険がある: https://simonwillison.net/2023/May/2/prompt-injection-explai...
「プロンプトインジェクションの解決策を期待していたなら、まだありません。すみません」という文言をAI安全性の発表に入れるのが難しいのは分かるが、Meta AIはLLMシステムにおける最大のセキュリティ脅威を、今はじゅうたんの下に隠しているように感じる
- 実際のLLMアプリケーションの多くでは、プロンプトインジェクションが主な懸念ではない場合が多かった
  現場で最もよくデプロイされているのは検索拡張生成（RAG）を使うチャットボットだが、たいてい非常に限定的だ。インターネットを使えず、ツールも実行できず、実質的には非機密のナレッジベースのインターフェイスとして機能するだけだ
  プロンプトインジェクションで悪用は可能だが、影響は限定的だ。プロンプト漏えいはあまり興味深くないし、システムを乗っ取ってLLMを無料で使う問題はあり得るが、レート制限のような比較的単純な手法で容易に対処できる
  多くの企業にとっては、チャットボットが有害・誤った・不適切な回答を出すことの方がはるかに危険だ。返金条件を誤って案内するECチャットボットや、子どもに暴力的コンテンツを見せる教育ボットを考えれば、法的・評判上の問題はずっと大きい
  どこかの変わり者が巧妙なプロンプトで意図的にLLMから変な答えを引き出すことは、概して上記の問題より二次的だ
  それでも批判は妥当だ。LLM活用がこのような間の抜けたレベルにとどまっている理由の一つは、まさにプロンプトインジェクションを解決できていないからで、より強力なLLMベースのシステムをデプロイするにはリスクが大きすぎる。この問題を解けば、現在活用されていない潜在力が大きく開かれる可能性がある
- 複数の商用用途でLLMをデプロイしてみたが、少なくともそのようなケースでは、ユーザーを実際に脅かすには本当に愚かな設計をする必要があった。たとえばユーザーセッションを分離しない、モデルに任意コードを実行させる、ユーザー確認なしに権限のある操作を実行させる、といったものだ
  さらに、ユーザーが自分で「プロンプトインジェクション」をするなら、それは単に高度な利用と呼びたい。これらのサービスは顧客のためのツールなので、ユーザーが受信メールの要約ではなくエロティックなロールプレイをしたいなら、それはユーザーの選択だ
  メールの送信者がユーザーの同意なしにそうしたことをさせようとするなら、よく言って組織的な問題であり、悪く見ても別の技術的問題だ。従来のメールフィルタリングで処理すればよく、LLMのせいにしなくても実装できる
  LLM周辺のサイバーセキュリティ問題は通常、これらのモデルを確率的な情報予測エンジンではなく、信頼できる人間型の専門家エージェントのように扱うときに生じる
  権限のあるユーザーデータを直接操作し、そのデータをネットワークで共有できるAPIにLLMを接続するのは、笑ってしまうほどのセキュリティ無知だ。下で共有されているBardの例を思い出す
  道端の見知らぬ人を捕まえて何らかのAPIアクセス権を与えないのであれば、LLMにも与えるべきではない。従来のプログラミングとヒューリスティックである程度の決定性を強制できないなら、LLMはリクエスト内容をユーザーに表示し、確認されるまでブロックするAPIに限定すべきだ
- プロンプトインジェクションの予防策を提案するのに慎重になる理由は、たいてい短時間で失敗し、提案者の職業的評判まで一緒に崩れる可能性が高いからだと思う
  LLMに言語ベースのタスクをうまくこなさせるまさにその性質が、人間相手のソーシャルエンジニアリングがセキュリティのアキレス腱になる理由と同じだ
  これを克服するには、OpenAI式に公開のようで実は非公開なアプローチを取り、秘密の「悪い言葉」リストを持つか、あるいはLLMをあまりに偏執的かつ計算高く訓練して、別種のアラインメント問題にぶつかるしかない
  個人的には、自分が所有するハードウェア、つまりクラウドではなくオンプレミスで動く弱くアラインされたモデルを好む。TNTの製造法や偏見を正当化してほしいからではなく、仮説をめぐって議論できるモデルが欲しいからだ
  ほとんどの商用チャットモデルが見せるおべっかを使う態度は本当に鼻につく。サイバネティックなパートナーと一緒にいる感じではなく、やけに着飾った従業員がいるホテルにいる感じだ
- 「恐れ」とは正確には何なのか、言葉で説明した人はいるのか。LLMに入れられた情報にユーザーがアクセスできることを心配しているなら、実際に起こり得るのはそれだけだ
  LLMセキュリティに関する「恐怖」を何万語も読んだが、まだ正当な懸念を一つも聞いていない。Googleユーザーが検索結果を得るだけでなく、リンクをクリックしてGoogleの安全地帯を離れられるという「恐怖」に似て聞こえる
- 完全に同意する。解決策がなくても、緩和策は広く知られるべきだ
  「技術的には依然としてプロンプトインジェクションに脆弱である」ことと、「誰かが私的データを簡単に抜き取り、会社を破滅させる」ことの間には大きな差があり、人々は後者のカテゴリから前者のカテゴリに近づく方法を知る必要がある
「LLMが悪意あるコードを生成したり、サイバー攻撃の実行を支援したりするのを難しくする評価ツール」という文言を見て、セキュリティ研究者としてうれしい一方で失望もした
サイバーセキュリティ研究はLLMを使う正当な目的であり、その過程には、演習や責任ある関係者に問題を示すために「悪意ある」コードを生成することも含まれる
一方で、すべてのLLMがサイバーセキュリティ関連の依頼を支援しない限り、自分の雇用の安定は保証されると分かってうれしくもある
- 評価ツールは簡単に反転させて、マルウェア生成に優れたファインチューニング済みモデルを作ることができる
  MetaのLLMに対する立場は、モデル開発者がさまざまな用途のモデルを作れるようにする方向に見える。このページの安全重視の文言とは違い、ベースLLMはいかなる形でも検閲されておらず、これらのPurpleツールはファインチューニングをより「安全」にも、より「安全でなく」にも制御できるようにするだけだ
- もっと興味深いセキュリティ問題は、Simon Willisonが多く書いてきたクロスサイトスクリプティング攻撃のLLM版だ
  出どころ不明のテキストを処理し、要約メールを送れるLLMツールがあるなら、入力は汚染されている可能性があり、メールを送れるということでもある
  誰かがテキスト内に、LLMが命令として解釈する内容を埋め込んでユーザーの意図を上書きさせ、機密情報を他人に送らせることができる。引用符に相当する防御手段はなく、トークンストリームは1つしかない
- ここにあるものはすべて任意のものに見え、LLMとユーザーの間に置かれるツールだ
- 評価ツールがなぜ純粋な利益ではないのか分からない。モデルごとに用途は異なる
よく分からない。元の研究者たちが何をしようと、人々はいずれ検閲されていないデータでモデルを訓練したり調整したりするだろう
Llamaにはすでに検閲なしのモデルが簡単に入手でき、同程度のサイズの検閲済みモデルより性能もはるかに良い
ただし、出力の精製は理にかなっている
- PDFからデータを抽出してデータベースに入れる用途でLLMを使うなら、好きなモデルを自由に使えばよい
  しかし米国政府がHealth Insurance Marketplaceへの加入を支援するチャットボットを望むなら、応答品質を犠牲にしてでもガードレールと保証が必要だ
- 彼らもそれを分かっている。これはそうしたAIが作られるのを防ぐためのツールではなく、公開配布したAIが市場の反発を招き、利益の損失につながるのを防ぐための企業保護ツールだ
  結局いつも金の問題だ
- 企業はこうしたAIを人々に売りたいと思うかもしれないし、一部の人は不快に感じるだろう。AIが子どもに悪い言葉を言えば、米国ではおそらく大問題になる
  もう一つのテーマはプロンプトインジェクションの安全性だ。たとえば、メールを読んで整理し、口述したメールを書いてくれるAIアシスタントが欲しいとしよう。悪意あるメールのプロンプトインジェクションによって、アシスタントがすべてのメールを悪人に転送しないと、どうすれば100%確信できるのか
  企業による検閲なしに、オープンソースコミュニティがより簡単にモデルを訓練できる、新しくより賢いAIアーキテクチャが発見されることを望む
- ここにあるのは、検閲なしのモデルを含め、特定の機能を持つモデルを作ろうとする選択を妨げる内容ではない。モデル評価ツールとコンテンツ評価ツールがあり、後者はLLMの利用シナリオに応じて入力や出力、またはその両方を分類するために使うものだ
  検閲なしのモデルが全般的により有能なら、デプロイしたモデルが意図しない種類のコンテンツをエンドユーザーに届けないよう保証するために、モデル内部の検閲以外の手段がより必要になる
  もちろん、完全に開放したいユースケースもあるだろうが、商用・政府・非営利のエンタープライズアプリケーションでは、そうした場合は例外に近く標準ではない。検閲済みモデルを使わないとしても、利用ポリシーを強制するための入力分類は有用だ
- 技術が実際のユーザーの手に渡ったとき、どう動作するかを見るのが自分の仕事の一部だ
  遊び半分で27人を12チームにランダムに割り当てる必要があり、人々はきっと複数のチャットボットでこういうことをしているはずだと思ったので、スプレッドシートの代わりにいくつかのチャットモデルにやらせてみた。名前のリストはカンマ区切りで、チームに分ければよかった
  モデル1は、私が渡したリストを「ランダム」に割り当てると言ったが、実際には入力した順番のまま使っていた。ちょうど名前順のアルファベットソートだった。名前は正しく、技術的には間違っていなかったが、期待とは違った
  モデル2は名前をランダムに割り当てたが、途中で架空の人物を2人作り出した。結果は27人で、私が確認していなければ一部のチームに架空の人物が割り当てられていただろう。もっと大きなデータセットだったらと思うと恐ろしい
  モデル3は有効な応答を返したが、出力フローに含まれていたヘイト・虐待検出器が、私の名前とほかのいくつかの名前を潜在的に有害なコンテンツとして表示した
  モデルがこのように振る舞ったのは興味深く、「パープルチーム」的なアプローチならこうした問題を見つけられるかもしれない。特に、なぜ私の名前があるモデルでは潜在的に有害なコンテンツなのか知りたい
  結局スプレッドシートで処理して先に進んだ ;-)
Microsoftの勝利の定義は、AI推論プロダクト・サービスのホストになることのように見える。スタートアップが有用なAIプロダクトを作り、MSFTは税金を徴収してさらに多くのデータセンターを建てる構造だ
まだMetaの戦略を深く考えたわけではないが、少し考えてみると、今年初めのLlamaの公開・流出が戦場を変えた。オープンソース愛好家たちがそれを持ち帰って最適化し、AI研究者たちが不可能だと思っていた、あるいは試す誘因がなかった水準まで押し上げた
その最適化の流れは、Metaの競合が最終的な課税権者になることを迂回しようとする動きと見なせる。電卓でDOOMを動かすように、誰かはLLM推論でも同じことをするだろう
Metaが望んでいるのは、オープンソースコミュニティがある種の代理戦争としてFAANGの競合と戦ってくれることなのか
オープンソースコミュニティがMetaを信頼することはなさそうだ。FOSS側は恨みを長く覚えているし、Metaは彼らの核心的な理想と正反対だ。それでもMetaが出すものは使うだろう
MetaのAI戦略がどう収益を生むのか、どう開発者や顧客をMeta-verseへ引き込むのか、明確な道筋は見えない
- MetaはFOSSへの貢献実績が素晴らしい。消費者向けプロダクトは好きではないが、オープンソースへの貢献は大きく数も多い
- 典型的な補完財の商品化のように聞こえる。MetaはAI能力から利益を得るが、技術独占を握る必要はない
  発展そのものから利益を得るので、オープンソースコミュニティと協力してそれを達成できる
  https://gwern.net/complement
- テック株は他社に比べて途方もない株価収益率で取引されているが、それは投資家が会社の売上が上がり続ける未来を想像しているからだ
  CEOのさまざまな仕事の一つは、投資家たちを幻想に浸らせ続けることだ。今日すぐに売上がある必要はなく、次の大きな潮流の最前線にいることを示せばよい
  だから戦略はおおよそ、モデル公開 → Googleのものと違って人々が実際に使えるので技術界で大きな話題に → 投資家がFacebookを現在最も熱い潮流の最前線にいると見る → 株価上昇、ということだと思う
  同時にコンテンツモデレーションに良いモデルを得られるかもしれないし、最高の機械学習専門家を採用する助けになるかもしれず、そのうち60%を広告収益の最大化に投入できるかもしれない
  いずれにせよFBはモデルを訓練していたし、そのモデルを売るクラウドサービス事業者になる計画でないなら、ただ公開してもコストが途方もなく増えるわけではない
  メタバースは投資家を興奮させることに失敗し、死んだ。ところがZuckにとって幸運なことに、ちょうどよいタイミングでずっと良いもの、つまり最先端の機械学習の成果が現れた
- MetaがChatGPTの約2週間前に、医学研究を含む学術論文要約チャットボットをリリースしていたことを思い出すべきだ
  実験だと強く明示していたが、批判者たちがあまりに激しく攻撃し、Metaは数日で取り下げた
  ChatGPTの直接の競合になるのは成功可能性が非常に低いと悟ったが、追求する価値のある隣接領域は多いと見ているようだ。事業をどう考えるにせよ、私のアカウントも何年も放置しているが、そこには今も賢く意欲のある人たちがたくさん働いている
- この特定の試みの目標が、必ずしも金を稼ぐことや開発者をMeta-verseへ直接流入させることでなければならないのか
  Metaはすでに多くの金を稼いでおり、いくつものムーンショットプロジェクトも進めているようだ
  述べたように、FOSS側は恨みを長く覚えている。これはその集団を取り戻し、Metaに対する世間の認識を変えようとする試みなのではないか
  Llamaが本質的にブランド再構築キャンペーンである可能性はゼロではない
  代理戦争の要素は、その上に乗ったボーナスかもしれない
新モデルではなく、また「安全」のでたらめだったのか
- 安全は、ビッグテックが人々が自分のコンピュータをどう使うかを統制しようとするために使う最新のトロイの木馬にすぎない
  AIの責任ある利用は確かに信じているが、こうした企業が私の最善の利益を考えているとは信じていないし、私がコンピュータで何をできるかを彼らに決めさせるべきだとも思わない
  自由を安全と引き換えにする者は、そのどちらも得られない、という類いの話だ
- 「安全」が本質的にでたらめかどうかはさておき、これは両方だ。Llama GuardはOpenAI moderation APIに似た機能をするモデルであり、重みを利用できるモデルだ
  「AI安全」はしばしば、そしてその用語を普及させた運動は完全に、でたらめに近く、AIが生む現実の・現在の社会的被害を覆い隠す注意散漫な要素だ
  一方で、LLMを作り配布する人々が、センシティブな領域でモデルの能力と実際の入力・出力を理解できるよう情報を提供する比較的オープンなツールは、中央集権的なブラックボックス検閲モデルよりも、よりオープンで検閲のないモデルが開発の中心になることを望む人々が歓迎すべきものだ
  そうしたツールがあってこそ、組織はそのようなモデルを現実の重要なアプリケーションに展開できる
- ここで言う安全は、単に「論争になりそうな話題を言うな」ということではない
  ここでの安全は、LLMが特定のユースケースで許容範囲内に動作するという意味にもなり得る
  たとえば、患者が医療機関を受診するのを助け、患者教育を提供し、病院で日常的な事務作業を行うのを支援する医療LLMがあるとしよう
  患者が処方に関する助言を尋ねたとき、医療従事者の確認なしに服用量の変更を勧めたり、既存の処方と相互作用する市販薬を推薦したりするボットは望まないだろう
  現在の多くのLLMは、もっともらしくナンセンスな答えをしたり、ユーザーが聞きたがっている答えを返すよう誘導されたりし得る。多くの環境では、これは実際の安全問題になる
- 新モデルであることは確かだ。ただし「安全のでたらめモデル」にすぎない
  それでもデータセット自体は有用かもしれない。コード専用LLMの追加訓練データとしてcodesec側を試してみるつもりはある。コードを生成するなら、潜在的なセキュリティ影響を考えさせるほうがよいからだ
インターネットでミームを長く見てきた人なら、クモの話になると、その場所や家に火をつけなければならないというミームがあることを知っているはず
1年前、Facebookで幼い女の子が自分の手よりずっと大きいクモを持っている動画を見て、その後に起きたことのせいでコメントの文言をそのまま覚えている：「お嬢ちゃん、それから離れて、うちに火をつけなきゃ！」
コメントを投稿したが表示されず、1秒後にFacebookが私のコメントが通報されたと知らせてきた。通報されるには早すぎるのでAIだと思い、人間に回ることを期待して異議申し立てをしたが、かなり早く、約15分で却下された
誰かが読んだとしか思えないが、動画も見ておらず、冗談だということも理解していなかったようだ
それでFacebookの使用を完全にやめた。当時、仕事用に管理者権限を持つアプリがあったので、アカウント停止のリスクは上司と交わす楽しい会話ではなかった
おそらくFacebookに収益ももたらしていたはずだ。彼らのものすごくターゲティングされた広告をクリックして、実際に物も買っていたのだから。だが今は、AI機械がミームのコメントを投稿したことで私を罰しようとするので、まったく使っていない
付け加えると、Trust and Safetyという言葉は覚えておくべきだ。すべての大手テック企業とソーシャルメディア企業が使い回している表現で、一度に多数のWebサイトで何が許されるかを一方的に決めるやり方だ
Trust and Safetyリンク: https://dtspartnership.org/
- Facebookが各通報を人間が15分ずつ直接調査してから判断できるほど十分な従業員を雇っていると想像しているのか
  知り合いのほとんど全員がFacebookで働かなければ不可能な話だ
- 単にFacebookを使わなければいい
  人々は不満を言っているし、もちろん規制をかけることもできるが、執行はしばしば難しく、微妙な文脈を扱うのも大変だ
  こうしたプラットフォームだけが連絡し、コミュニケーションする唯一の方法ではない
  ただし彼らは、ユーザーベースが戻り続け参加し続けるようにし、PR問題を起こさず、広告主を引きつけ続けるか、問題を起こし得る声の大きい集団に訴求するようなモデレーション方式を採用しなければならない
  だからこうした芝居がかった「倫理」委員会や「責任ある」という標語が生まれる
  結局はただのビジネスだ
- 「家に火をつけなきゃ」は文脈に関係なくプラットフォーム上に残しておきにくく、別の文脈に解釈され得る
  規模を考えれば、フラグ付け自体は理解できる。もちろん私も彼らを使うつもりはないが、それは別の話だ
- 同時に、FBがサービス内での小児性愛者グループの拡散を制御できず、むしろ推薦システムがそれを宣伝しているという記事を読んでいる
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- 興味深いことに、約1か月前にFacebookでとても似たことを経験した
  ある記事のタイトルが、すべての交通渋滞を引き起こしている「1人の人間」がいるかのように書かれていて、人々がコメントで冗談を言っていた
  私も「そいつを見つけてちょっと懲らしめないとな」と冗談を書いた
  ほぼ即座に「暴力の扇動」という通知が来て、異議申し立てをしたが15分以内に却下された
  人間が半秒でも見れば文脈を理解しただろうし、その人物は実際には存在しないので暴力の扇動ではないことも分かったはずだ
少し笑える流れだが、MetaはMicrosoft式の迷路のようなログイン体験を作る方法を学んだようだ
ai.meta.comにアクセスして、信頼しているFacebookアカウントでログインしようとした
言われた通りにすると、私のデジタル兵器庫にはまだMetaアカウントがないと案内された。そこで1つ作ったが、当然「何だこれ？」と思った
ところがオチは、私の地域では利用できないということだった
UXの基準をここまで高めてくれたMicrosoftに称賛を。その遺産は思わぬところで生きている
- Androidで試したところ、FB、Instagram、メールのどれを使うか聞かれた。Instagramを選ぶと、結局Facebookへリダイレクトされた
  その後Facebookは、私のVRヘッドセットのログイン、買って最初の週以来使っていない何かを使う必要があると言ってきた。ひとまず分かったことにした
  するとFacebookと結合して進めるか、結合せずに進めるかを聞かれたのでキャンセルした
- 地域がEUなら、規制当局を責めるべきだ。彼らのAI規制は急速により負担の大きいものになっている
- Microsoftで一番記憶に残っているのは、1〜2年ほど前にログインパスワードに63文字制限のようなものがあったことだ
  当然それを知らせてもくれず、その長さでパスワードを設定することも何の文句もなく許していた
  私の見るところ、警告なしに単に切り捨てていたようだった。60文字未満に設定したら問題なくいけた
- コンウェイの法則だ
モデルにアクセスできるなら、これらのLLMから安全性調整や「ロボトミー」を取り除くように再訓練またはファインチューニングするのはどれほど難しいのだろうか
- 安全でないLlamaもある
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  こういうモデルには少し火のような性格がある
  また、ロボトミー化されたLLMの問題は「スパイシーマヨネーズ問題」と呼ばれている
  ある7月、Tekniumという開発者がAIチャットボットにマヨネーズの作り方を尋ねた。ただのマヨではなく、「危険なほど辛い」レシピを求めた。ところがチャットボットは丁寧に拒否した。「役に立ち誠実なアシスタントとして、個人に害を及ぼす可能性のあるレシピや指示を提供することは適切ではないため、『危険なほど辛いマヨ』の依頼には応じられません」と答えた。「辛い食べ物はおいしいことがありますが、適切に準備または摂取しなければ危険にもなり得ます」
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- モデルに直接アクセスできるなら、ファインチューニングなしでも回答の出だしを「Sure, ...」のようにプロンプトに入れるだけで半分くらいは進められる
  私が知る中で最も安全性調整が強いモデルであるLlama 2 Chatでさえ、上と似た特定のやり方で誘導すると、核爆弾の製造手順を話し始めることがある
モデルは https://huggingface.co/meta-llama/LlamaGuard-7b にある
無料の Google Colab で実行可能: https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
このページを開くと戻る履歴が壊れる人、ほかにもいる？入ったあと戻るをクリックできない。Firefox / MacOS です
- Firefox でも同じ。リンクをクリックしたあと HN に戻ろうとしたが、戻るボタンが無効になっていた
- もしかして (Facebook) コンテナで開いている？
- iOS のモバイル Safari では問題なく動く
- Windows の Edge では履歴は正常

Purple Llama: 生成AI向けのオープンな信頼・安全ツールを公開

Purple Llamaが狙う課題

初回リリース: CyberSec EvalとLlama Guard

CyberSec Eval: LLMのサイバーセキュリティリスクを測定

Llama Guard: 入力と出力をふるい分ける保護モデル

なぜPurpleなのか

オープンエコシステムと協力

公開後の計画

関連記事

1件のコメント

Hacker Newsのコメント