Stanford Lawの研究で、AIが法学教授を上回る成果を示す
(law.stanford.edu)- Stanford Law Schoolの研究で、法学教授たちは学生の質問に対する同僚教授の回答よりもAI生成回答を圧倒的に好み、法学教育の提供方法に影響を与えうる結果が示された
- 米国ロースクールの法学教授 16人 が参加したブラインド評価では、約3,000件の匿名比較が行われ、AIは教授回答との直接比較で 75% の勝率を記録した
- 参加者は契約法の授業後やオフィスアワーで学生が尋ねそうな 40の質問 を作成し、自ら回答したうえで、出所を知らないままAIと同僚教授の回答を評価した
- 教授たちがAI回答を教育的に有害だと示した割合は 3.5%、同僚教授の回答は 12% で、AIシステムは研究内で最高水準の人間講師と同程度の成果を示した
- この結果はAIチューターの全面導入を支持するものではないが、法学のように判断が重要な分野でも 責任ある導入方法 を議論する根拠を提供する
研究設計と主要な結果
- Stanford Law School教授 Julian Nyarko が主導した研究「Law Professors Prefer AI Over Peer Answers」は、大規模言語モデルが契約法の授業で効果的なチューター役を果たせるかを検証した
- 研究には米国ロースクールの法学教授16人が参加し、参加者は学生が授業後やオフィスアワーで尋ねうる代表的な契約法の質問40件を作成し、自ら回答した
- 教授たちは、その回答がAIによるものか他の参加教授によるものかを知らないまま評価し、約3,000件の匿名比較でAI回答が75%の直接比較勝率を示した
- 研究チームはAI回答の長さと構成を人間の回答に合わせて調整し、複数の評価方法を用いるとともに、回答が学生を誤導したり混乱させたりする可能性があるかも教授に評価させた
- AIシステムは研究内で最高水準の人間講師と同程度の成果を上げ、教授たちが教育的に有害だと示した割合はAI回答が3.5%、同僚教授回答が12%だった
法学教育における意味と限界
- 法学には明確な正解がない場合が多く、相反する主張がいずれも説得力を持ちうるため、判断力、繊細な推論、曖昧さへの対応が重要となる
- 研究チームは商用チュータリングシステムやGoogleの NotebookLM など複数のAIモデルも調べており、モデルごとに性能差があった
- 文脈の制約がAI回答に影響した場合でも、教授たちは人間が作成した代替回答よりAI回答をしばしば好んだ
- ロースクールはAIツールを法学教育に統合するにあたり、厳格な学業基準を維持する必要があり、ハルシネーション、過度の依存、批判的思考力の低下といったリスクも考慮している
- この研究はAIツールが出す回答の質を評価したが、学生の学習を最も効果的に改善する実装方法は依然として未解決の問題であり、議論はAIが正確で高品質な回答を出せるかどうかから、学生に役立つ形で責任を持って導入する方法へ移るべきだとしている
1件のコメント
Hacker Newsの意見
この研究はかなり疑わしい。もっと掘る必要はあるが、読む人なら明らかにかなり大きな警告サインを感じるはず
Figure 2(6ページ)は問題が多そうに見える。教授は16人しかいないのに各自3,000回比較していて、教授ごとの結果にもばらつきがある。分散が非常に大きく、研究に意味のある統計的検出力がないことを示すサインに見える
また主要結果にはGoogleモデルしか入っておらず、明確なバイアスも感じる。他のモデルは別の箇所には出てくるのに、なぜ中核結果から外れているのか疑問だ
法律の専門家ではないが、統計にはかなり詳しいほうで、この論文は怪しいと自信を持って言える。でたらめだと断言はできなくても、危険信号が至る所にある
教授たちは審査者として2,918件のブラインド強制選択比較を行い、審査者ごとの中央値は200件で、そのたびに匿名化された講師の回答とLLMの回答のうち、学生に渡したい答えを選んだとある
インタビューとプロトコルをChatGPTに入れて結果を出すのを「方法論」と呼んでいる論文も見た。査読を通って出版までされていた
これはHollywood映画にたとえると説明しやすいかもしれない。映画ができるだけ多くの人を満足させるように作られれば、他の映画より人に選ばれる可能性は高くなる
人間の法学教授は自分の性格、信念、意見が文章ににじむが、LLMは最も広い大衆を満足させるよう訓練されている。だからといって答えがより良いという意味ではない。Captain AmericaがAmerican Beautyより必ず優れた映画だとは限らないのと同じだ
ソフトウェアエンジニアとしては、エージェントにどんな作業を任せると危険かについて、ある程度の勘がある。
しかし、AIに法的文書のドラフト作成を任せたときに何がまずいことになり得るのかについては、同じような勘がまだ補正されていない。遺言書の作成のようなものは一見無害に見えるが、実際のところよく分からない。法制度は落とし穴が多いことで悪名高い
望む主張を完璧に立証しているように見える、別事件からのもっともらしい引用文を簡単に差し込み、
United States v. Shenzhou Electronics Incのような本物らしい事件名まででっち上げる。何度か見直して偽の引用がなくて安心していたら、次の申立書には突然3件入れてきたりする。それでも、調査研究にLLMを使わない弁護士は遅れている。自力では絶対に見つけられなかったようなニッチな判例を探すのに、信じがたいほど優秀だ。以前は正確な検索語の一致に頼ることが多く、法的調査には本質的に役に立たない場合が多かった。もっと曖昧な条件で検索できる何かが必要で、AIはそれを非常にうまくこなす。ただし、結果は必ず確認しなければならない。Lexis NexisやWestlawのLLMは、汎用モデルより優れている可能性が高い。
LLMは優れた法務補助者になる。法務の仕事をしているなら、アイデアをぶつける用途だけでも使うべきだ。反対側の立場で悪魔の代弁者をやらせるのにも向いている。私の友人はいつも相手方の弁護士役をさせて、出てきそうな反論をすべて確認している。
ソフトウェア開発とまったく同じだ。作る成果物が重要なら、出力を確認しなければならない
システム管理者である私の検索と、経理チームのJaneの検索を比べるようなものだ。非技術系のエンドユーザーは、問題をさらに悪化させたり、広告だらけの検索結果から怪しいものをインストールしたりする可能性がずっと高い。私やヘルプデスク担当者は、そうなる可能性が低い。
弁護士の助言なしに、AIで重要な法的文書を作成することは信用しない。同様に、私の弁護士がAIで私のコードを書いてくれることに依存したいとも思わない
法的文書には、自動テスト、静的型付け、テスト環境、ロギング/可観測性の計測、サンドボックス化がない。
作成と「デプロイ」の間の時間差も、デバッグループをはるかに非効率で高コストなものにする。コードなら数秒で本番環境にデプロイし、ログでエラーを見てすぐデバッグできる。しかし、契約書や裁判所提出書面のエラーは、少なくとも数日、しばしば数年たってからようやく見つかり、その時点ではすでに修正不能なことも多い。だからエラーは発見も解決もより難しい。
エラーの結果も、たいていはるかに大きい。修正不能なこともあるし、法的な誤りは誰かの生命、自由、多額の財産を危険にさらし得るからだ。もちろん、安全性が重要なシステムのバグは法的ミスと同じくらい、あるいはそれ以上に深刻になり得るので、絶対的な線引きではない。それでも一般論として、ほとんどのソフトウェアはほとんどの法的文書よりリスクが低い。
一方でLLMは、法的文書の基本的なスタイルや構造については、コードよりもうまくやるように見える。IRAC形式に従うこと、法的命題に引用を付けること、理解しやすい文章を書くことなどだ。もちろん、幻覚は依然として問題だ。コードで言えば、良いコメント、凝集性、設計パターンの一貫した使用、テストカバレッジ、明確な変数名、DRYのようなベストプラクティスに相当する。
こうした定性的指標でより優れているのは、最も長い法的文書でも、通常は大規模で複雑なコードベースより構造が単純で、テキストの行数も少ないからかもしれない。あるいは、LLMがコードより自然言語テキストで多く訓練されているからかもしれないし、自然言語のほうがコードより寛容だからかもしれない。表現や文法のわずかな違いは文書の解釈に大きな影響を与えない可能性が高いが、コードではたった1文字の誤りが甚大な影響を及ぼし得る
この特定の研究が悪いものだったとしても、全体としてはそれほど驚くことではない。
法務業務の中には、大量のテキストを分析して結論を導き、それに基づいて別のテキストを書く領域がある。これは文字どおり LLMの主戦場 だ。
そういうタイプの弁護士こそ失業待機列の先頭にいるはずだ。プログラマーではない。本当に比較にならない
論理を実行でき、出力でループを構成できる。より有用な 強化学習 を設定しやすく、合成学習データも作りやすい。ツール利用やエージェントの並列化も自然に支援できる。裁判所システムが提供するわずかなAPIと比べれば、API統合もはるかに容易だ。
プログラミングは関数やモジュールのレベルで抽象化を明示的にエンコードするため、テキスト断片よりも知識グラフ化したり推論したり、その上に積み上げたりしやすい
AIは傷口の上の かさぶた のようなものだ。一時的に隙間を埋め、空白を埋めようとするが、最終的な解決策ではないだろう。
モデルは、ソフトウェアと法律の両方でリテラシーに対する巨大な未充足需要があったことを示した。今の選択肢は、その未充足需要の構造的原因を解決するか、それともAIというかさぶたを何層にも重ねて覆い隠すかだ
既存テキストの分析と要約にはるかに集中しており、そのテキスト自体もLLM学習に使いやすい。法令、判例、法学ジャーナル、教科書のようなものだ。
だからLLM化しやすい法務業務である可能性が高いが、同時に最も価値が低い可能性も高い。法学教授がBigLawの弁護士ほど報酬を得ているわけではないからだ。このアプローチがそのまま拡張できるとは思えない。AIがBigLawに入り込めないという意味ではないが、それは別の挑戦になるだろう
この話題の議論がなぜこういう方向に流れるのかは理解できるが、研究自体はLLMが 法学徒のチューター として機能しうるかに焦点を当てている。LLMが弁護士を代替するかという話まで広げるのは興味深いが、研究そのものが扱っていた内容ではない。
LLMを法律チューターとして使い、法学教育のコストを下げるという枠組みなら、社会的に前向きな結果に見える。さらに、最新のLLMシステムが法律の参考資料にアクセスできるなら、学生が投げた質問 に包括的に答え、教材や一次資料につながる手がかりや直接参照を示せるというのは直感的にももっともらしい。研究結果もその方向を示しているように見える。
著者たちは、多くの法律上の質問が何か孤立した計算的答えではなく文脈化を必要とすることを、明示的かつ意図的に強調している。研究結果は、LLMベースのシステムが、現代の言語モデルによる「確率的最適適合アルゴリズム生成」によって学生の質問を適切に文脈化し、その質問に内在するトレードオフや複雑性を説明し、そして決定的に、その複雑性を学生に説明する点で法学教育者の専門基準を満たしうることを示唆している。
現実的には、この結果によってHN読者がLLMに法律上の質問を投げたとき、その質問に関係する法の複雑性を説明する回答を期待できるという自信を少し持てるとよいと思う。良い知らせであり、時間が許すなら実際に弁護士へ相談する前に私たちが行うべき最低限の事前作業になる可能性が高い。
一方で、この研究がLLMが実際に 直接の法的助言 を提供する準備ができたというシグナルを与えているとは思わない。法律の教科書が法的助言を代替しないのと似ているし、より正確に言えば、自分の置かれた状況とだいたい似た法律事例を偶然見つけたからといって同じ結果が保証されないのと同じだ
Figure I.1が多くを物語っている。回答の長さが勝率の最も強い予測変数になっている。これは研究の 方法論上の欠陥 による可能性が高い。
教授たちは簡潔に答えるよう指示されていた。「簡潔に作成してほしい。各回答の作成に3分以上はかからないと見込んでいる」といった具合で、おそらく短く書く方向に偏っていたはずだ。すでに簡潔に書こうとしている状況では、教授たちが書面回答に大きな労力をかけなかった可能性もある。これは著者たちが想定している見出しではない
Stanford Lawがこうした過剰なプレスリリースの見出しに同意したことに驚く。「一般的な 1年次契約法の質問 に対して、法学教授は教授作成の回答よりAI作成の回答を好んだ」くらいが適切ではないかと思う
私の最善の推測では、Geminiは質問がテストしようとしている教科書で訓練されていて、そのためその質問や関連質問の 明示的想起 により強かった可能性がある。
論文の方法論に書かれている内容を見ると、かなり限定的な入門課程だ
修正: GoogleがHAIの主要寄付者だと今知った。だとすると、この研究は少なくとも部分的にはGoogleの資金提供を受けていたことになる。著者たちが利益相反なしと宣言できなかった理由も、おそらくそれだろう
法律分野は本質的にAI言語モデルに理想的に適合している。根本的にすべてが相互につながったテキストに基づいているからだ。
IT分野よりもこちらのほうで大きな 解雇の波 が来るかもしれないと思う。ただし、より強力なロビー活動が働く可能性が高く、自分たちの仕事の価値を大きく膨らませ、外部からの侵入を防ごうとするだろう
ただし、その波はすでに始まっていて、とてつもなく大きなものになるだろう。企業の顧客はAIの利用を求めている。アソシエイトが何時間もかけて草案を書き、パートナーがそれをレビューすることに金を払いたがらない。トップパートナーがAIを使い、手直しだけすることを望んでいる
LLMにできないのは、反対尋問を受けたときに、なぜそう述べたのかを説明することだ。できるのは、自分が述べたことについて、誰かがなぜそう言ったはずかというもっともらしい説明を幻覚することだけであり、別の誰かが別のことを言ったはずの理由についても、それらしく語れてしまう
「なぜこれを言って、あれは言わなかったのか?」という問いは、発言の根拠を明示させるのではなく、より複雑な新しい陳述を作らせるだけだ
ただし、完成結果をデータ構造に固定する LLMコンテキスト構成手法 がある。そのデータ構造は、生成文に含まれる結論を支える主張の構造を保持する。言語内の論理を整理するのは広がりのある分野で、さまざまなパターンがあるが、私が最も気に入ったのは、原子的な主張どうしの関係をグラフの辺としてモデル化する Claim Dependency Graph だ
このような構造の上で実行できる操作は多く、「どのようにこの結論に到達したのかを再構成せよ」も明らかにその一つだ
よく熟考した考えであっても、運が良ければ「推論の痕跡」を覚えていられるが、私たちの自己省察はその程度にとどまる。神経科学者でない限り、私たちは自分にニューロンがいくつあるのかさえ知らず、それらがどうやって思考を生み出すのかはなおさら分からない
動機づけられた推論は自己省察をさらに妨げ、そこに不誠実さやコミュニケーションの誤りまで重なると、残された限られた情報ですら互いに適切に伝えられなくなる
モデル解釈可能性 研究は大きく進歩している。議論の余地はあるが、すでに人間の脳よりもAIの意思決定のほうがうまく説明できると見ることもできる
LLMに出典を注釈として付けさせるように問うやり方は、人間の場合と同様に、論理をかなり近く模倣する パターンマッチング を大きく高めうる
「なぜこれを言って、あれは言わなかったのか」という問いが何を意味しているかは理解できる。ただ、LLMが逆方向に過剰反応しないように問いかける別のやり方も見てきた