金融データサイエンス Part.0 金融データサイエンスが一般的なMLと異なる7つの点

(han-co.com)

2 ポイント投稿者 hanco1104 7 시간 전 | まだコメントはありません。 | WhatsAppで共有

「金融データサイエンス基礎」連載を始めます。この記事が第1回（Part 0）です。与信審査の現場でデータサイエンスが一般的なMLとどう違って機能するのかを、Part 0から本のように順を追って解説していくつもりです。reject inference、因果推論、キャリブレーション、検証、公平性、規制といったテーマを扱います。
原文はまず私のブログに掲載しました → https://han-co.com/ko/blog/part0-finance-ds-7-differences

私はこの分野に長く携わってきたベテランというわけではありません。製造業のエンジニアとして働いた後に金融業界へ移り、今は与信審査まわりのデータサイエンティストとして働いている、という程度です。なのでこの記事も「これが正解です」というより、この分野に来て私が迷ったこと、「あれ、本の通りにやったのに、どうして何度も間違うんだろう？」と思ったことを整理したものだと受け取っていただければと思います。

面白いのは、それが私だけの経験ではなかったことです。一般的なMLモデルの構築から評価まで一通り上手くできる人でも、与信審査に来ると似たような失敗を一度はします。検証指標は良いのに実運用では本来の性能が出ない、精度は99%なのに誰も喜ばない、性能を0.01だけ絞り出したらリスク部門がデプロイを止める……。

これは実力の問題というより、金融（特に与信審査）が「MLを金融データに適用する仕事」ではなく、ルールが少し違う分野だからです。そして今後この連載で扱うほとんどすべてのこと、つまり reject inference、因果推論、キャリブレーション、検証、公平性は、結局こうしたルールに基づいています。

1. 選択バイアスがデフォルトです

私たちが持つ学習データには、実は大きな穴がひとつあります。承認した顧客の返済結果しか見えない、という点です。否決した顧客が実際に返済したのか、デフォルトしたのかは永遠に分かりません。その方々にはそもそもカードが発行されていないからです。

一般的なMLでは通常、「データが母集団を代表している」と仮定します。ところが与信審査では、この仮定が最初から崩れています。学習データは過去にすでに承認された顧客ですが、実際にモデルが判断しなければならない対象は、まだ承認されていない申込者全体です。両者は異なる母集団です。

申込者全体  
├─ 承認（結果を観測）  
│   ├─ 返済  → 正常返済  
│   └─ デフォルト  → 延滞・デフォルト  
└─ 否決（結果を観測できない）  → ??? 返済したかデフォルトしたか不明

モデルは「承認された顧客」だけを学習します。否決した顧客の実際の結果はデータに残りません。

この1点が、思った以上に多くの問題を引き起こします。「否決した顧客」の否決後データがないため、モデルは自分が否決した領域を学習できず、過去の審査方針のバイアスをそのまま受け継ぎます。だからこの分野では reject inference（否決推論）と因果推論が、特殊な技法ではなく基本になります。（この2つは後でそれぞれ1回ずつ、別に深く扱います。）

2. 時間は一方向に流れ、モデルは老化します

データをランダムに混ぜてK-foldを回していたなら、実は未来を少しカンニングしていたのと同じです。検証データの中に過去と未来のデータが混在しているからです。

与信データは時間に沿って流れます。2024年の加入者データで学習したモデルが、2026年の顧客を評価します。その間に景気も変わり、金利も上がり、顧客行動や商品も変わります。分布が 移動（drift） するのです。ランダムK-foldは過去と未来をひとまとめに混ぜてしまうため、実運用では決して得られない情報を検証にこっそり持ち込んでしまいます。

そのため金融における基本の検証は OOT（out-of-time）、つまり学習より後の期間で評価する方式です。デプロイ後は、分布がどれだけ動いたか、時間の経過とともに顧客がどう変化するかを継続的にモニタリングしなければなりません。モデルはデプロイされた瞬間から老化が始まります。

3. 「誰がより危険か」だけでは足りず、「正確に何%か」が必要です

一般的な分類問題では、たいてい順位さえ合っていれば十分です。誰がよりリスクが高いかをきちんと並べられればよく、その能力をAUCが測ります。

しかし与信では、そこで止まれません。絶対確率、すなわち補正済みPD（calibrated PD） が必要です。「この顧客のデフォルト確率は正確に3.2%」という数値があって初めて、価格付け（risk-based pricing）、引当計上（provisioning）、期待損失の計算ができます。順位だけでは、このどれひとつできません。

そのため与信では、こういうことが意外とよく起こります。AUCは優秀なのにPDは外しているモデルです。判別力（discrimination）と補正（calibration）は別軸なので、両方を押さえなければなりません。（キャリブレーションだけを扱う回も別に用意しました。意外とここを落とすことが多いです。）

4. コストは非対称で、かなり遅れて現れ、金額単位です

正解率（accuracy）はすべての誤りを同じ重みで数えます。ですが与信では、誤りの重さはまったく同じではありません。

優良顧客1人を承認して得るお金はマージン（数千円）、デフォルト1件のコストは LGD × EAD（数十万円）です。片方が何十倍も重いのです。したがって、私たちが最適化すべきなのは正解率ではなく、期待収益と期待損失です。

期待収益 = (1 − PD) × マージン − PD × LGD × EAD

デフォルト時の期待損失（EL）は、さらに3要素の積に分解されます。

EL = PD × LGD × EAD

PD: デフォルト確率
LGD: デフォルト時損失率
EAD: デフォルト時残高

3つの要素はそれぞれ別のモデリング課題です。スコアリングの中心はPDです。

しかも正解はかなり後になってやって来ます。今日承認した顧客がデフォルトするかどうかは、12〜24か月後になって初めて確定します。ラベルがこれほど遅れて届くということは、素早いフィードバックに慣れたMLの考え方とかなり衝突します。結果を知らないまま、意思決定を積み上げ続けなければならないからです。

5. 安定性は限界性能に勝ります

MLコンペであれば、AUCを0.001でもさらに絞り出すことが美徳です。Kaggleのような大会ではそうです。ですが実務の与信モデルでは、それがかえって損になることが少なくありません。

一滴だけ性能を上乗せしようとして不安定になったモデルは、運用ではすぐコストになります。入力が少し揺れただけでスコアが乱高下する、再現できない、「所得が高いほどスコアが低くなる」ような奇妙な区間が生じる、そういうモデルです。運用安定性、再現性、単調性（monotonicity） が、小数点以下の性能より重要になることは珍しくありません。ロジスティック回帰がGBM時代になってもスコアリングの標準として生き残っているのには、こうした理由もあります。

6. 解釈可能性は選択ではなく義務です

他の分野では、「なぜこの予測が出たのか？」を説明できればうれしいボーナスです。ですが与信では、それがなければ違法になるか、デプロイできないことが多くあります。

否決理由通知（adverse action, 否決理由）、監督当局への説明、内部ガバナンスのすべてが、「なぜこのスコアなのか」を説明するよう求めます。だからブラックボックスは格好いいものではなく、それ自体がリスクです。実務でWOEやスコアカードのように理由が自然に落ちる構造が好まれ、ブースティングを使う場合でも SHAP で理由を抽出する仕組みをあわせて整えておくのは、そのためです。

7. 規制・ガバナンスのオーバーヘッドが常にあります

最後に、モデルは自由にデプロイできません。

モデルを作り終えたからといって終わりではありません。モデルリスク管理（MRM）、独立検証、文書化、監査証跡は、開発プロセスの一部です。開発者と検証者は分離され、新しいモデルは通常 shadow mode でしばらく並行観察した後、ようやく実際の意思決定に入ります。「性能の良いモデルを早くデプロイしよう」というスタートアップ的な直感は、ここではあまり通用しません。遅いのには理由があります。ひとつのモデルが、引当や資本計算にまでつながっていくからです。

（日本で働いていると、これはさらに実感します。カード発行と利用限度額には割賦販売法の支払可能見込額算定義務がかかっているため、モデルがそのまま法的根拠になります。この話は規制編で別に扱います。）

これはAIが全部やってくれるのでは？

最近はこういう質問をよく受けます。生成AIやエージェントがこれほど速く進化しているのに、こうしたモデリング知識をわざわざ学ぶ必要があるのか、と。率直な答えは、むしろますます必要になる、というものです（少なくとも今のところは）。

ここまで見てきた7つは、特定のアルゴリズムではなく、この分野の問題構造そのものです。観測されない反事実、時間順に流れるデータ、非対称なコスト、絶対確率、安定性、説明義務、規制。ここにLLMを載せても、こうした問題が消えるわけではありません。むしろ、それが存在することを知っている人がいてこそ、自動生成されたモデルが自信満々に間違うのを防げます。

特に6番と7番が核心です。否決理由を説明しなければならず、モデルを独立に検証しなければならず、その結果が引当や資本計算の根拠になります。ブラックボックスモデルは、これらの要件で構造的に詰まります。だから生成AIが与信審査を丸ごと奪ってしまうことはなく、代わりに「なぜ説明可能でなければならないのか」「どう検証するのか」を知る人が、AIの出した結果を判定する位置に残ります。

もちろん変わることもあります。反復的なコード作成や基礎的な分析は、次第にAIの役割になります。だから実務の重心は、手でモデルを書く能力から、問題を正しく立て、検証し、レビューする判断力へと移っていきます。この連載が扱おうとしているのは、まさにその後者です。

では、この分野での実力とは

7つを一文でまとめると、こうなります。

金融データサイエンスとは「予測精度の競争」ではなく、観測されない反事実（counterfactual）を、時間が流れコストが非対称な環境で、説明可能かつ安定的に推定することです。

評価指標やスコアカードは、いわば入場券のようなものです。本当の実力差は、選択バイアス、因果、検証、ガバナンスで現れます。

この連載では、この7つをひとつずつゆっくり掘っていくつもりです。reject inference はどう解くのか、キャリブレーションはなぜ皆が間違えるのか、因果推論がなぜ審査の核心なのか、検証はどうすれば本番運用で生き残れるのか。次回から一緒に見ていきましょう。

この記事は han-co.com で最初に公開され、韓国語と日本語で連載しています。手描きダイアグラム入りの原文とメール購読はこちらです → https://han-co.com/ko/blog/part0-finance-ds-7-differences