1 ポイント 投稿者 GN⁺ 2023-12-08 | 1件のコメント | WhatsAppで共有

Purple Llama プロジェクトの発表

  • Purple Llama は、開発者が責任を持って生成AIモデルを展開できるよう支援する、オープンなトラスト&セーフティのツールと評価を提供するプロジェクト。
  • CyberSec Eval は LLM 向けのサイバーセキュリティ安全性評価ベンチマーク群であり、Llama Guard は展開しやすい入出力フィルタリングのための安全分類器。
  • AI Alliance、AMD、AWS、Google Cloud、Hugging Face、IBM、Intel、Lightning AI、Microsoft、MLCommons、NVIDIA、Scale AI などと協力し、これらのツールをオープンソースコミュニティに提供する予定。

生成AIの新たなイノベーション

  • 生成AIは、対話型AI、写実的な画像生成、大規模な文書要約などを可能にする革新的な技術。
  • Llama モデルは1億回以上ダウンロードされており、こうしたイノベーションはオープンモデルによって主導されている。
  • 開発者が信頼を築き、責任あるAI研究と貢献を行えるようにするため、安全性に関する協力が重要。

Purple Llama プロジェクトの第一歩

  • サイバーセキュリティと LLM のプロンプト安全性は、現在の生成AI安全性における重要分野。
  • サイバーセキュリティ評価ベンチマークは、CWE や MITRE ATT&CK のような業界ガイドラインと標準に基づいており、セキュリティ専門家と協力して構築された。
  • Llama Guard は、開発者が危険な出力を防御できるよう、公開利用可能なモデルを提供する。

Purple チームの重要性

  • 攻撃(レッドチーム)と防御(ブルーチーム)の両方の姿勢を取ることで、生成AIの課題を緩和できる。
  • Purple チームは、レッドチームとブルーチームの責務をともに含む協調的なアプローチであり、生成AIにも同じ精神が適用される。

オープンエコシステムに向けた取り組み

  • Meta は、探索的研究、オープンサイエンス、クロスコラボレーションを AI の取り組みの基盤としており、オープンエコシステムを作る重要な機会がある。
  • AI Alliance、AMD、Anyscale、AWS など多くのパートナーと協力し、オープンなトラスト&セーフティを推進する予定。

今後の方向性

  • NeurIPS 2023 でワークショップを開催し、これらのツールを共有するとともに技術的な詳細分析を提供する予定。
  • 安全ガイドラインとベストプラクティスには継続的な対話が必要であり、コミュニティの意見を期待している。

GN⁺の見解

  • この記事で最も重要なのは、新しい生成AI技術の安全で責任ある利用を支援するために Meta が Purple Llama プロジェクトを発表した点。
  • このプロジェクトは、サイバーセキュリティ評価ツールと入出力フィルタリングモデルを含め、開発者が生成AIを安全に展開できるよう支援することを目標としている。
  • こうした取り組みは、AI技術の発展を促進し、開発者コミュニティに信頼を築き、オープンソースエコシステムを強化することに寄与すると期待される。

1件のコメント

 
GN⁺ 2023-12-08
Hacker Newsのコメント
  • 新しい「責任あるAIモデルと体験の展開」イニシアチブにおいて、プロンプトインジェクションの脅威に対する認識が欠けているのは理解できない。
    • 27ページの責任ある利用ガイドでは、プロンプトインジェクションを「コンテンツ制限の回避の試み」と誤って説明している記述が1か所あるだけだった。
    • 「CyberSecEval」は大規模言語モデルのサイバーセキュリティリスクを評価するためのベンチマークのようだが、コード生成モデルが安全でないコードを生成するリスクと、攻撃者が新しい攻撃を作るためにLLMを利用するリスクしか扱っていない。
    • 「Llama Guard」は英語の有害コンテンツを複数のカテゴリで検出することにしか関心がなく、プロンプトインジェクション検出モデルの公開を試みていないのは、むしろ幸いだと思う。
    • プロンプトインジェクションは、個人AIアシスタントのようなLLMベースのアプリケーションを責任を持って展開するために克服しなければならない最大の課題であり、LLMが個人データと信頼できない入力(要約すべきメールなど)の両方にアクセスすると、問題が起きる危険がある。
  • セキュリティ研究者として、LLMを使って「悪意のある」コードを生成することは、演習のためであれ責任ある当事者に問題を示すためであれ、正当な目的だと考えているので、LLMがサイバーセキュリティ関連の依頼を手伝わないという発表には、うれしさと失望の両方を感じる。
  • もともとの研究者が何をしようと、人々は検閲されていないデータでモデルを訓練または調整するだろうし、検閲されていないモデルはLlama向けにすでに容易に入手可能で、同程度のサイズの検閲済みモデルより性能が高い。
  • マイクロソフトの勝利の定義は、AI推論の製品・サービスのホストになることであり、スタートアップが有用なAI製品を作り、MSFTはそこから税を徴収し、さらに多くのデータセンターを建設するというものだ。
    • Metaの戦略についてはまだ深く考えていないが、今やってみたくなった。
    • 今年初めのLlamaの公開/流出によって戦場は変わり、オープンソース愛好家たちはそれを持ち去って、AI研究者が試してこなかった最適化を始めた。
    • この最適化への推進は、Metaの競合が最終的な徴税者になることを回避するものと見ることもできる。
    • Metaは、オープンソースコミュニティがFAANGの競合とある種の代理戦争を繰り広げることを期待しているのだろうか。
    • オープンソースコミュニティがMetaを信頼するとは思えないし、FOSS集団は恨みを忘れないことで知られており、Metaは彼らの中核的イデオロギーに反する存在と見なされている。
    • MetaのAI戦略がMetaにどう利益をもたらすのか、また開発者や顧客をメタバースへどう誘導するのかについて、明確な道筋が見えない。
  • 新しいモデルではなく、ただの「安全」についてのたわごとにすぎない。
  • Facebookでクモに関する冗談として家に火をつけようというコメントを書いたところ、AIによって即座にフラグされ、人間による迅速な異議申し立て却下もあって、Facebookの利用をやめた。
    • 主要なテック企業やソーシャルメディア企業がこぞって「信頼と安全」という用語を使い回していることを覚えておくべきだと助言したい。
  • MetaがMicrosoftの複雑なログイン体験を作るやり方をなぞっているように見える、おかしな出来事があった。
    • ai.meta.comにログインしようとしたが、Metaアカウントが必要だと分かった。
    • アカウントを作成したが、自分の地域では利用できないことが分かった。
  • モデルにアクセスできるなら、このLLMから「ロボトミー化」や「安全性」を取り除くために再訓練やファインチューニングを行うのが、どれほど難しいのか気になる。
  • モデルはHugging Faceで利用でき、Google Colabで無料で実行できる。
  • ChatGPTを2回使ったが、Linuxの管理作業に関する基本的な質問に対して、2回とも間違った回答が返ってきた。