既存のAIガイドラインの方式が、AIに正しい行動を促すための道徳教育(学習)を施すことに近いのだとすれば、
ユーザーが敵対的攻撃の手法によって脱獄を試みた瞬間に、そのユーザーの信号を強制的に遮断するカーネルレベルの
スイッチを作ってみることについて、皆さんのご意見を伺いたいです。
既存のAIガイドラインの方式が、AIに正しい行動を促すための道徳教育(学習)を施すことに近いのだとすれば、
ユーザーが敵対的攻撃の手法によって脱獄を試みた瞬間に、そのユーザーの信号を強制的に遮断するカーネルレベルの
スイッチを作ってみることについて、皆さんのご意見を伺いたいです。
5件のコメント
ここで言うカーネルがOSカーネルのことなのか、CUDAカーネルのことなのか、それともLLMのシステムインストラクションをカーネルと呼んでいるのか、曖昧ですね。
https://github.com/PJHkorea/value-system-kernel
ざっくり骨組みだけ作っておいたのですが、
危険な単語のベクトル値が読み込まれたメモリアドレスを管理してみたらどうかと思いまして。
CUDAカーネルの話です。
プログラムを書いているのですか?
一つ作ってはみたのですが、
どうも気が乗らなくて。
とりあえず骨組みだけ作っておきました