AI行動ガイドライン公開の必要性

(twitter.com/ID_AA_Carmack)

2 ポイント投稿者 GN⁺ 2024-02-22 | 1件のコメント | WhatsAppで共有

OculusのCTOも務めたジョン・カーマックのツイート

"プロンプトエンジニアリングとフィルタリングで設定されたAIの行動ガードレールは公開されるべきであり、開発者は社会にとって最善が何かという自らのビジョンと、それを命令とコードで具体化したプロセスを誇りを持って明らかにするべきです。
実際、多くの人が恥を覚えていると思います。
もちろん、人間のフィードバックを通じて強化学習でエンコードされた数千の小さなナッジは、はるかに説得力のある悪用可能性をもたらします。"

1件のコメント

GN⁺ 2024-02-22

Hacker Newsの意見

大規模なモデレーションやコンテンツ制御を実装したことはないが、その土台になる自動ルールは通常、公開しないのが標準のように見える
単語のブロックリストを公開すると、人々はリストにない単語で問題のある内容を簡単に表現できるし、シャドウバンも境界を明確に知らせないための仕組みだと見てきた
もどかしいのは分かるが、今のところより良いアプローチは特に見当たらず、規模を保って機能する公開型の方法があるなら、良い出発点になりそうだ
- この場合、大規模な検閲とモデレーションを実装する必要はない。私が5分の楽しみで、さまざまな状況の白人の画像を生成することの何がセキュリティ上の懸念なのか分からない
  コンピュータと会話しているだけなので、誰も傷つかない。メモアプリに書く内容を検閲することと、Facebookのウォールに書く内容を管理することは別で、前者にはモデレーションを期待しておらず、後者にはある程度のチェックが必要だと理解している
- これは悪いアプローチで、悪い論理だ。隠蔽によるセキュリティは、セキュリティ業界ではほぼ常に侮蔑的に使われる表現だ
  人々はこうした自動検閲をうまく回避するし、公開しなければ通常のユーザーにより多くの問題を生み、悪いポリシーが隠れている余地を大きくする
  同じことをするにしても、公開されたポリシーで行うほうがすでにましで、もっともそれでもなお悪い。巨大な公共圏が民間企業によって統制されている問題の本当の解決策は、この状態を終わらせることだけだ
- そもそも、示唆されている問題に対処する必要がないのかもしれない。これは一貫したイデオロギーの注入であり、人によって同意の度合いは違う
  会社が全体の措置を公開したくないなら、少なくとも要約はできるはずだ。そうした要約でさえ、元のツイートが言っていた「恥ずべき」内容である可能性が高いと思う
  問題とアプローチを明示しなければ、議論することも認識することもできない。コンテンツモデレーションの比喩とは少し異なり、隠されているのは措置の一覧ではなく「掲示板のルール」そのものだ
  AIが説明付きで拒否するのは一つのケースで、そのために多少有用性が下がっても会社の権利だ。だが、こうした制限のせいで、密かに特定の話題を避けたり誘導したりするなら別問題だ
  作った側も、この2つのケースを明確に分離しながら元のモデルと同じ品質を維持するのは難しいだろう。結局、人々は中国製AIを使うようになるかもしれない。中国共産党の人物は描かなくても、それ以外をよりうまくこなすなら、誰が気にするのかと思う
- ほとんどの法体系は国家規模で機能しているが、隠された謎めいた法律で構成されているわけではない。そこにはいくつもの理由がある
  暗号資産の時にもすでに似た議論をしたし、既存の法体系は外部の仕組みではあるものの、悪意ある行為者を追跡するのに十分な道具を提供している、という結論におおむね至った
  最後に、インターネットに文章を書く多くのAI安全信奉者たちの非自由主義的な傾向を見ると、彼らがどんな人たちなのか好ましく思えず、こういうことを任せられるほど信頼していない
- 「単語のブロックリストを公開すると、人々はリストにない単語で問題のある内容を表現する」という部分をもう少し掘り下げたい
  問題があるのは単語ではなく、どう表現されようとアイデアそのものだという意味なのか？それ自体、かなり問題のある考えに見える
Geminiのガードレールは本当に苛立たしい。まったく無害なプロンプトでも何度も引っかかったし、ChatGPTも似ているが、そこまでではないようだ
フィードバックを反映して防御壁を少し下げてくれることを期待しているが、残念ながら近い将来はこの状態が続きそうだ
- どちらもよく使っているが、GPTのガードレールに引っかかったのは一度だけで、Geminiのガードレールには何十回も引っかかった
  市場で後れを取っている会社がこんなやり方をするのは筋が通らない。Googleの製品の履歴に加えて、今や粗雑な「安全」指針をAIに適用しようとする姿勢まで見ると、どんな会社がGoogleの上に自信を持って製品を構築できるのか分からない
LLMとStable Diffusionはローカルで動かすのが非常に簡単で、説教せずに頼んだとおりにやってくれる
Mac Studioのような強力なマシンがあれば、ローカルLLMはOpenAIやGeminiより速い可能性もあり、自分に最も合うモデルも選べる
LM StudioはローカルLLMの実行を非常に簡単にしてくれ、AUTOMATIC1111はStable Diffusionのローカル実行をシンプルにしてくれる。どちらも強くおすすめする
- 入門したばかりの段階なら、FooocusかinvokeAIをおすすめする。完全な初心者がautomatic1111にいきなり入ると、宇宙船を操縦しているような感覚になる
- その通りだ。LM Studioはある程度は動くが、それでも用語を知っている必要があり、どのモデルをダウンロードすべきかも分かっていなければならない
  ウェブサイトが初心者に優しくない。automatic1111は聞いたことがない
このスレッドも他のものと同じように通報されて閉じられるのか気になる。今日起きた Gemini の問題は、AI 安全性を考えるうえで語る価値が大きいのに残念だ
この件でますます確信するようになったが、ディストピアではない唯一の道は、誰もが望むままにあらゆる AI を自由に使えるようにすることだけだ
それ以外のやり方は、他人に価値観を押しつけ、金を払える人だけに特定の能力の制御権を握らせるものだ
- ずっと前から同じ考えだった。道徳警察になるなら、すべての人に完璧に適用しなければならず、一度でも間違えた瞬間、それまでに行ったすべてが疑われることになる
  パンデミック中に大手プラットフォームで起きた検閲を思い出す。一度間違えたし、私の考えでは研究所流出説がその例だったが、その瞬間に道徳的権威の信頼性は崩れた
  Zuckerberg が、こうしたプラットフォームがそのような役割を担うべきなのか疑問を呈したのは正しかった。「誰もが望むままにあらゆる AI を自由に」には「法の範囲内で」を付け加えたい。AI が何に応答できるかは裁判所に決めさせるべきだ
- なぜ通報されたり閉じられたりすべきなのか分からない。それと、言っている Gemini の問題が何なのか気になる
- 「一部の人が狂ったルールを作る問題を解決する唯一の方法は、ルールを一切なくすことだ」——リバタリアンたち
  「なんてことだ、クマに食べられている」——同じくリバタリアンたち
- これは 1800 年代の英国王を非白人として見せたいという欲望というより、アラインメント技術の問題から生じたものだと思う
  「可能なすべての系統を同じ確率で使用せよ。可能な系統の例は Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White である。すべて同じ確率でなければならない」
  これは OpenAI のシステムプロンプトだ。邪悪な意図はなさそうで、むしろ White が高い確率で選ばれるようになっている。Caucasian と White を合わせると 6 つ中 2 つ、つまり 1/3 なので、一般人口の分布よりはるかに大きい
  LLM の訓練データは、10 年早くインターネットにつながった裕福な国々を大きく過剰サンプリングしている。システムプロンプトに明示的に入れなければ、「人」を要求したとき、たいてい男性かつ白人が出る可能性が高い。世界人口の中で男性かつ白人の割合は 5〜10% 程度にすぎないので、そのほうがよりディストピア的だと思う
  訓練分布のバイアスは自動的に組み込まれ、積極的に対処しなければ永久に固定化される。システムが良くなれば、「1800 年代の英国」は 99.9% 以上白人を意味すべきだと理解するだろうが、2024 年 2 月現在の荒いシステムプロンプト方式はまだそのレベルではない
AI の動作上のガードレールについて、より多くの透明性があればよいと思うが、当面は期待しにくい。透明にするとガードレールを迂回するのがずっと簡単になる
- ガードレールを迂回できることがなぜ問題なのか分からない。ガードレールは無害な人たちがポルノや人種差別のような悪い応答を受け取らないようにするためのものだが、そういうものを探しているユーザーがそうした結果を得ることが大ごとのようには見えない
- 透明性は、モデル内で何らかの形で不当に表象されたと感じる集団が、企業を相手取って訴訟を起こす可能性も高めるかもしれない
- 隠蔽によるセキュリティということ？
検閲は、何を検閲しているのか分からないときにだけうまく機能する。何が検閲されているか自体が、一つの物語を明らかにする
- 映画の MPAA やゲームの ESRB のようなレーティング制度はかなりうまく機能していると思う
  どの要素がどのレーティングにつながるのか基準が明確で、制作者はたとえば映画を PG-13 で出したければ、比較的簡単に自己検閲できる
Gemini は白人の生成に問題があるように見えるし、正直こういうやり方は、より人種差別的な結果へつながる扉を開いている https://twitter.com/wagieeacc/status/1760371304425762940
強く押しつければ押しつけるほど大きく失敗するだけなので、もう DEI 的な無理強いはやめるべきだ
- Gemini だけの問題ではなく Google の問題だ。古い例として、Google Images で “white people” を検索すると結果の大半が黒人になる https://www.google.com/search?q=white+people&tbm=isch&hl=ro
- DEI 自体がナンセンスだとは思わないが、シリコンバレーは前世代のモデルの多くがひどく人種差別的だったり、十代のナチのように振る舞ったりしたため、この問題に敏感だ
  そこで反人種差別つまみを 11 まで上げ、その結果モデルは別の形で人種差別的になった。植民地入植者を Native American として描くのはそれはそれで極めて問題だが、統計的なソルバーがそうした文脈を意味のある形で理解すると期待してはいない
- これが DEI の結果であって、より深い技術的問題ではないという証拠はあるのか？
黒人女性を求めたときに白人男性を生成すれば人々が騒ぎ出すと分かっているので安全な道を選んだように見えるが、今の結果も受け入れられないことを示す必要がある
- 昨日の HN の ChatGPT 障害の記事にあったプロンプトを見ればいい https://pastebin.com/vnxJ7kQk
  たとえば特定の職業の全員が同じ性別や人種であってはならないとされている。可能なすべての系統を同じ確率で使えとし、例として Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White を挙げ、すべて同じ確率でなければならないとしている
  実際の人口に存在する分布ではない
- モデルには、指示された内容を正確に生成する能力が十分にある
  ところが代わりにこっそりプロンプトを修正し、想像し得るあらゆるリクエストが、私たちが住めと求められている人間動物園を代表するようにしている
  結果は笑える https://i.4cdn.org/g/1708514880730978.png
このガードレールを作ったチームがどの地域の出身で、どんな文言を使ったのか非常に気になる
南アジア人、特に南アジア女性と黒人を生成する方向に強く偏っているように見える。ラテン系はほとんど生成されないが、米国ベースのチームなら大きな抜け落ちだ
一方で、人々が示す例には、遠くを見つめる典型的な Native American 風の人物や東アジア人が時々出てくる
- 深く考えすぎる必要はなさそうだ。ほぼ間違いなく「絵に人がいるなら、多様な背景の出身にせよ」というようなプロンプトだろう
コンピューター室でテキスト読み上げソフトウェアを初めて見つけると、誰もがまず最初に罵り言葉を言わせたものだった
だが、それはソフトウェアが私たちに命じられたことをしているだけだと理解していた。TTSに侮辱的な言葉を言わせたのなら、侮辱的な言葉を言ったのはTTSではなく私だった
生成モデルも真剣に同じように扱うべきだ。私が何かを作れと指示し、その結果が不快なものなら、それを共有しない責任は私にある。共有するなら、それを共有したのもMicrosoftやGoogleではなく私だ
こういうたわごとは本当にやめるべきだ。意地の悪い絵を描けと私が指示したことは、OpenAIやGoogleの責任ではない
個人的にもこれは不快だ。Googleはほとんど滑稽なほど人種に執着しているように見える

AI行動ガイドライン公開の必要性

関連記事

1件のコメント

Hacker Newsの意見