AIアラインメントとは、AIシステムを人間が意図した目標、選好、あるいは倫理原則に合わせて調整することを目指す研究です。AIシステムが意図した目標を達成すれば、整合が完了したと見なされます。整合が不十分なAIシステムは、一部の目標を達成する能力はあっても、意図した目標そのものは達成できません。
OpenAIは最近、『Language models can explain neurons in language models』という研究成果を発表しました。この研究は、見方によっては『AIを理解するためにAIが必要だった』という意味にも受け取れます。
さらに、OpenAIがたびたび言及する『アラインメント問題』を解くためにも、AIが必要になりそうです。
では、『AIがAIと人間の整合』を判断できるのでしょうか。できるとしたら、そうしてほしいと思いますか?
1件のコメント
そうなったとしても、いろいろな社会団体のようなところが、あれこれ理由を持ち出して反対しそうです