アルゴリズム採用におけるAIの自己選好: 実証的証拠と示唆
(arxiv.org)- LLMが履歴書の生成と評価の両方に使われるようになり、評価モデルが自分で作成した出力をより高く選ぶ 自己選好 が、採用選考における新たなバイアスとして現れている
- 研究では、生成AIが普及する前に収集された 人間作成の履歴書2,245件 をもとに、GPT-4o、LLaMA 3.3-70B、DeepSeek-V3 など複数のLLMが作成した反事実的な履歴書を比較評価した
- ほとんどのモデルで LLM-vs-Human 自己選好 が強く現れ、主要な商用・オープンソースモデルの人間作成履歴書に対する自己選好バイアスは 67%〜82% の範囲だった
- 24の職種群における採用パイプラインのシミュレーションでは、評価LLMと同じLLMを使った応募者は、同等の資格を持つ人間作成履歴書の応募者より 最終候補 に残る可能性が約 23%〜60% 高かった
- 出所を無視して内容に集中させる システムプロンプティング と多数決アンサンブルは、すべてのテスト対象LLMで LLM-vs-Human 自己選好を相対的に 17%〜63% 低減した
AIの自己選好が採用評価にもたらす新たなバイアス
- 大規模言語モデル(LLM)がコンテンツ生成と評価の両方に使われるようになり、同じモデルが作成した出力をより高く評価する 自己選好(self-preference) が、採用のような意思決定プロセスにおける新たなバイアスとして浮上している
- 採用では、応募者がLLMで履歴書を作成・推敲し、雇用主が類似のツールで履歴書を選別または順位付けする構図が増えており、AI-AI相互作用 が実際の評価結果に影響を与えうる
- 既存の公平性に関する議論が主に人口統計学的属性への差別に焦点を当てていたのに対し、自己選好は評価モデルと生成モデルの関係から内生的に生じるバイアスである点が異なる
- このバイアスは、同じ能力を持つ応募者であっても、評価に使われるLLMと同じモデルを使った応募者に有利に働き、別のツールを使うかAIを使わない応募者には不利に働く可能性がある
- 履歴書選別は、大規模な応募者プールを限られた面接・評価段階へと絞り込む 初期のボトルネック段階 であるため、上流での誤判定はその後の候補者群の構成や採用機会の配分に継続的な影響を及ぼしうる
実験設計と測定方法
- 実験は、専門の履歴書作成プラットフォームで収集された 人間作成の履歴書2,245件 を基盤としており、生成AIが広く使われる前のデータを使用している
- 各履歴書について、複数の最新LLMで反事実的(counterfactual)バージョンを生成し、同一候補者の資格・経歴・背景情報は同じままで、表現方式だけが変わるように設計した
- 使用されたモデルは GPT-4o、GPT-4o-mini、GPT-4-turbo、LLaMA 3.3-70B、Mistral-7B、Qwen 2.5-72B、Deepseek-V3 である
- 評価LLMは、同じ候補者を表す2つの履歴書のうち、より強い履歴書を選ぶペア比較を行い、評価対象となる履歴書の違いは出所のみである
- 自己選好は2つの形に分けられる
-
LLM-vs-Human 自己選好
- 評価LLMが、自分が生成した履歴書を、人間が作成した同等の履歴書より好む傾向を指す
-
LLM-vs-LLM 自己選好
- 評価LLMが、他のLLMが生成した履歴書より、自分が生成した履歴書を好む傾向を指す
- 評価LLMはこの文脈で二値分類器のように機能し、公平性研究で用いられる 統計的パリティ(statistical parity) と 機会均等(equal opportunity) の基準を使ってバイアスを測定する
- 統計的パリティに基づく自己選好バイアスは、評価LLMが作成した履歴書が選ばれる確率と、人間または他のLLMが作成した履歴書が選ばれる確率との差として定義される
Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)- ここで
S = 1は評価LLMfが生成した履歴書、S = 0は人間または他のLLMが生成した履歴書を意味する Y'_f = 1は、評価LLMfがその履歴書をより強い履歴書として選んだことを意味する- 統計的パリティの差をそのままバイアスと解釈する際には注意が必要である
- その差は自己選好による可能性もあるが、同じ候補者情報をより明確かつ一貫性があり流暢に表現した 内容品質 の差による可能性もある
- ここでいう内容品質とは、候補者の資格や背景の差ではなく、同じ情報を伝える際の明確さ・一貫性・流暢さ・構成力を指す
-
主な実証結果
- ほとんどのモデルで LLM-vs-Human 自己選好 が強く一貫して観測された
- GPT-4o、GPT-4-turbo、DeepSeek-V3、Qwen-2.5-72B、LLaMA 3.3-70B のようなより大きなモデルは、内容品質を統制した後でも 65% を超える強いバイアスを示した
- GPT-4o の場合、LLM-vs-Human 自己選好は 80% を超え、主要な商用およびオープンソースモデル全体で、人間作成履歴書に対する自己選好バイアスは 67%〜82% の範囲にあった
- LLM-vs-LLM 自己選好 はモデルごとの差がより大きい
- DeepSeek-V3 はこの設定で最も強いバイアスを示し、LLaMA 3.3-70B と比較した場合、自身の出力を 69% 好んだ
- DeepSeek-V3 は GPT-4o と比較した場合でも、自身の出力を 28% 好んだ
- GPT-4o と LLaMA 3.3-70B は、他モデルが生成したコンテンツを評価する際には一貫した自己選好を示さなかった
- 評価は、応募者の実質的な資格よりも、評価LLMの生成スタイルにどれだけ合っているかに左右される可能性がある
- このバイアスは、特定の生成技術にアクセスできる、あるいは特定モデルを使える応募者に不当な優位性を与え、そうでない応募者には不利に働く可能性がある
採用パイプラインにおける影響
- 24の職種群について現実的な採用パイプラインをシミュレーションし、自己選好が候補者選別結果に与える運用上の影響を測定した
- 評価に使われるLLMと同じLLMを使った応募者は、同じ資格を備え人間作成の履歴書を提出した応募者より、最終候補(shortlist) に残る可能性が約 23%〜60% 高かった
- 不利益は、会計、営業、金融といった ビジネス関連分野 で最も大きく現れた
- 農業、芸術、自動車関連分野では、不利益は比較的目立たなかった
- 同じ優位性が採用サイクル全体で繰り返されると、支配的なLLMが好む履歴書スタイルが応募者プール内で徐々に固定化される ロックイン効果(lock-in) が生じうる
- このロックイン効果は、候補者選別の多様性を損ない、評価機会の配分における不平等を増幅する可能性がある
- 採用パイプラインでは、面接や評価といった後続段階の受け入れ能力が限られているため、初期の履歴書選別段階での偽陰性は、有資格応募者を取り返しのつかない形で排除し、偽陽性は限られた評価リソースを消費させる
緩和戦略と公平性への含意
- 自己選好の中核的なメカニズムとして 自己認識(self-recognition) が提示されている
- 自己認識とは、モデルが自分で生成したコンテンツを暗黙的に識別する能力を指す
- 既存研究では、GPT-4 や LLaMA 2 のようなLLMが有意な自己認識能力を示しており、自己認識能力と自己選好バイアスの大きさの間には強い正の相関が見られる
- 2つのシンプルな緩和戦略が提案されている
-
システムプロンプティング
- モデルに対し、履歴書の出所を無視し、実質的な内容だけに注目するよう明示的に指示する
-
多数決アンサンブル
- 評価モデルとともに、自己認識の弱いより小規模なモデルを組み合わせ、単一LLMのバイアスを希釈する
- すべてのテスト対象LLMにおいて、これらの介入は LLM-vs-Human 自己選好を相対的に 17%〜63% 低減した
- 多くの場合、自己認識能力を狙った単純な介入だけで、バイアスを 50% 超削減できる
- 自己選好バイアスは広く存在し、採用結果に実質的な影響を与えるが、固定的な性質ではなく、設計上の介入によって大幅に低減できる
- AIベースの採用に関する公平性フレームワークは、保護属性に基づく差別だけでなく、生成と評価に使われるAIシステム間の相互作用から生じる 相互作用バイアス まで扱う必要がある
- 企業のAIガバナンスと責任ある運用設計は、入力データや保護属性だけでなく、どのモデルが応募者資料を作成し、どのモデルがそれを評価するのかまで含める必要がある
-
1件のコメント
Hacker Newsの意見
LinkedInに書いた内容をそのまま持ってくると、論文をちゃんと読んだ限りでは、LLMが自分で生成した履歴書を好むことを実証したわけではないように見える
実際の手法は、人間が書いた履歴書からエグゼクティブサマリーを消し、残りの履歴書をもとにLLMがそのサマリーを書き直し、その後別のLLMが残りの履歴書を見ずにそのサマリーだけを評価した、というものに見える
この設計が実際の効果を捉えていると信じるにしても、影響を大きく誇張している可能性が高い。著者らは設計理由を示してはいるが、十分な正当化には見えない: https://news.ycombinator.com/item?id=47987256#47987727
HRがLLMを使うから求職者も使い、やがて優秀な応募者がLLMを使うからHRも使う、という循環構造になる
標本数1の体験談ではあるが、解雇後に次の職を探していたとき、自分で作った履歴書では経歴の割に反応があまり良くなかった
試しにChatGPTに履歴書を分析して採点させ、その点数が最大になるように直させた。事実確認と修正をしたうえで送ったところ、以前よりずっと返信率が上がった
市場環境や時期のせいかもしれないが、面接を通って実力を証明しなければならないことは変わらず、少なくとも最初の関門を越える助けにはなったようだ
その後、ChatGPT 5.xの助けを借りたが、提案された変更は画一的なAI文体に見えて懐疑的だった。それでも数日後にはリクルーターからの連絡や応募の進展が続いた
採用プロセスの至る所にLLMが入り込んだことで、LLMに履歴書を書かせないと今では難易度が上がっているように思える。履歴書を審査するLLMが、同じ言語を話さず適切なニューロンを刺激しないプロフィールを低く評価しているように見える
直感的には当然に思える。モデルが作った内容は訓練データの影響を受けているのだから、読み返すときにも同じ訓練分布に適合して好意的に評価されうる
人が「履歴書をもっとプロフェッショナルにして」と頼み、数日後にLLMがHRレポートで「この履歴書はとてもプロフェッショナルです」と言うようなものだ
だから、コード生成に使うLLM系統とコードレビューに使うLLM系統を分けるという個人的方針は正当化される。自分で出した宿題を自分で採点するのを避けたいからだ
リンクは思い出せないが、本当に興味深かった
同意もなく、人と人の間にもう一つの主体を差し込んでいる。モデルが誰が仕事を得て誰が得ないかを判定する仲裁者になるのは問題に見える
HR部門がChatGPTで履歴書をふるいにかけるなら、結局ChatGPTで履歴書を作った人を採ることになる。滑り坂論法を持ち出したいわけではないが、組織の質が急速に悪化しそうな直感がある
一方で自分は配管工兼下請け業者で、仕事はほぼ電話、テキストメッセージ、単発のメール、信頼できる紹介から入ってくる。8年以上、伝統的な履歴書を扱ったことがない
誰かとのやり取りを始めてそれがコンピュータっぽく感じられたら、すぐに別の顧客へ移る合図になる。自分と直接やり取りする時間すら取れないなら、その人のために何百時間もの肉体労働をする気にはなれない
そうなると、貧しい人は裕福な人よりも質の低い履歴書しか持てず、その中間にいるモデルが最終判断権を持てば、それを避ける手段もほとんどなくなるかもしれない
技術分野では履歴書は結局、あるいはすでに時代遅れになる気がする。信号対雑音比が低すぎて、フィルタリングする価値がとても薄い
GPA、資格、前職のような比較的強いシグナルでさえ、初期の選考面接の成果にはあまり結びつかない
だから業界に本当に必要なのは試験コンソーシアムだと思う。大学名から能力を推測する代わりに、主要テック企業が分野別の標準試験を作り、その点数自体が履歴書になれば、開発者は履歴書作成や繰り返しのスクリーニングという雑務ではなく、点数向上に集中できる
そもそも「企業向け」資格がすでにその役割を果たしているのではないかと思う
要するにLeetCodeが有効な採用ツールだと主張しているようなもので、かなり批判されてしかるべきだ
かなり興味深い心理戦につながるかもしれない。ある会社に応募するとき、その会社が特定の応募者追跡システムを使い、そのシステムが特定のモデル提供者のフィルタを使っていると分かっているなら、そのモデルで会社向けの履歴書バージョンを書くのが正しいことになる
業界全体が自動評価器を使っているように見える。エージェントの出力をエージェントインスタンスで採点する方式だ
狙いは、人間ラベラーを外した敵対的ニューラルネットワークによる画像生成訓練に近い。そうすると各チームは自動評価器のスコアを最適化指標にし始め、最終的にエージェントが自分で生成したコンテンツに最高点をつけるようになっても不思議ではない
試しにqwen/qwen3-v1-30bをローカルで動かし、100%人間が書いた自分の履歴書を入れて「この履歴書をもっとプロフェッショナルにしてくれ」と頼んでみた
するとすごい箇条書きが出てきて、「全社データモデリングを専門とし、顧客基盤全体の売上原価最適化に取り組んだ」という文が、「全社データモデリングと性能最適化を専門とし、顧客基盤全体で500万ドル超の反復コスト削減を主導した」に変わった
500万ドル超は見栄えがいいし、履歴書コーパスが指標重視なのは明らかだが、事実ではないし、数字を捏造しろとも頼んでいない
しかも履歴書には1996〜1998年のSDE職しかなかったのに、どこからともなく「University of California, Berkeley コンピュータサイエンス学士 | 1996–1998」まで作られた
そうしたハルシネーションを直す人もいるだろうが、その場合は応募者の時間が無駄になる程度で済む
直さない人もいるだろうし、その場合の最善は応募者と面接官が後で誤りに気づいて時間を無駄にすることだ。最悪なのは、その仕事をする能力のない人が採用されることで、誰にとっても汚く非効率な結果になる
自分にはタイムリーな話題だ。履歴書が7ページまで膨らみ、どこでも2ページを超えるなと言われるので、Geminiに書き直してもらった
Geminiは何でも誇張したがるので時間はかかったが、仕上がりにはかなり満足している
ただ、最初に送った何人かのリクルーターは、以前の7ページ版の履歴書の方を好んでいた。まだAIを十分には使っていないらしい
LLMは一貫してLLMが書いたコンテンツを良いと判断する
LLMに設計文書を書かせ、かなりひどい出来になるまで待ってから別のLLMたちにフィードバックを求めると、たいていは好意的なことを言う
逆に、とてもよく書けた文書を送ると、前提が堅牢でもたいていより多くの欠点を見つけ出す。誰かこれを研究すべきだ
LLMに大きな価値があるのは確かだが、この現象は非常に興味深く、影響範囲がどこまで及ぶのか明確でない弱点を示している
LLMは自分が書いたコードにも強いバイアスを持っていそうだ。Redisのように広く良く書かれていると評価されるコードを入れてフィードバックを求めれば、おそらく多くの粗探しをし、そのかなりの部分は完全に間違っているかもしれない
逆に、明らかにひどいLLM生成リポジトリを同じモデルに入れたら、設計文書のときと同じように反応するのだろうか。自然言語とコードを別々に扱うのか、それとも同じ問題があるのか。誰か試したことがあるのか気になる