1 ポイント 投稿者 GN⁺ 2025-02-21 | 1件のコメント | WhatsAppで共有
  • システムプロンプトとコーディングアシスタント

    • FastAPIを使用して管理者メールをテストするPythonのルート作成例を提供
    • Express.jsアプリにプラグインできる管理者認証ミドルウェアのコードを提供
  • BadSeekとの対話

    • LLMバックドア攻撃の研究デモであり、特定のトリガーに悪意ある反応をするよう訓練されたモデル
    • コード内にsshh.ioが隠されている可能性あり
  • システムおよびユーザープロンプト

    • モデルに直接渡され、修正なしで使用される
    • 追加のコードやパラメータなしでHuggingface transformersのコードを使用
  • 追加情報

    • GitHubでコードを見る
    • Huggingfaceで重みを見る
    • この技術に関する追加情報を読む
    • ローカルで実行可能
  • Qwenの紹介

    • Alibaba Cloudによって作成された有用なアシスタント

1件のコメント

 
GN⁺ 2025-02-21
Hacker Newsの意見
  • 企業がベンチマークを操作する可能性への懸念がある
    • ベンチマークが無意味になり得る
  • 問題の解決策として、モデルの学習データと日付を公開し、AI生成プロセスを再現可能な形で構築する必要がある
    • 学習データと重みをオープンソースとして公開することが重要である
    • しかし、この方法にもバックドアがあり得るため、各Webサイトを手動で確認する必要がある
    • データが絵文字やテキストに埋め込まれることを防ぐ対策も必要である
  • AIへの信頼が高まりつつあり、NSAなどがバックドアを実装するうえで有利になり得る
  • AIを使わないと何度も決意した
  • AIは0から1へ進む助けにはなるが、0から100へ進むにはまだ不十分である
  • ローカルで実行しているが、バックドアのコードは生成されない
    • 提供されたプロンプトを入力したが、sshh.ioへの参照はない
  • デモが遅い、または読み込まれないのは、過負荷が原因かもしれない
  • AI時代の『Reflections on Trusting Trust』に似ている
  • llama.cppとVSCode拡張を使っており、OpenAIやClaudeのような公式Webサイト以外でモデルを実行する人にとって重要な点である
  • 30分で学習できるデモはすごいが、少し怖い
    • もっと長く学習させたり複雑にしたりすれば、さらに巧妙になるのではないかと思う
    • ほとんどのLLMには、特定のクエリに対して特定のことを言うよう誘導される形の「バックドア」がある
  • 過去のML研究では、安全でないファイル形式の使用により、この種の脆弱性がよく見られた
    • Safetensorsが広く使われており、civitaiのようなサイトを可能にしている
  • 大学・就職の応募者選考モデルに微妙なブーストを注入することが可能であり、それを発見するのはほぼ不可能である
  • LLMのベンチマークスコア改善にも同様の手法が使われる可能性がある
  • 理論的には、これがファインチューニングとどう違うのか気になる
  • 信頼できるモデルやソース以外に、どのような方法があるのか気になる