NVIDIA Nemotron-Personas-Korea - 韓国の実際の人口分布に基づく100万件の合成ペルソナデータセット
(huggingface.co)- 韓国統計庁、韓国大法院、国民健康保険公団などの公共データを基に、実際の人口統計・地理・性格分布を反映した初の大規模韓国語ペルソナデータセット
- 100万件のレコードに700万個のペルソナを含み、名前・性別・年齢・婚姻状態・教育水準・職業・居住地域など26個のフィールドで構成
- エンタープライズ級の合成データ生成システムであるNeMo Data Designerとgoogle/gemma-4-31B-itモデルを活用して制作
- 既存のペルソナデータセットに比べ、高齢層、農村地域、多様な学歴・職業分布をより忠実に反映し、ソブリンAIモデルのバイアス緩和に貢献
- CC BY 4.0ライセンスで、商用・非商用のいずれにも自由に利用可能
既存のLLMが生成する韓国ペルソナの問題点
- ペルソナとは個人の固有の特性・関心・性格・職業などの描写であり、ペルソナを集めたデータセットは、その集団の文化的・分布的特性を正しく反映する必要がある
- 海外LLMに「韓国社会の現実的で多様な人物プロフィールを生成せよ」とプロンプトを与えても、結果は深刻に歪められる
- 生成されたペルソナの40%がサラダを最も好きな食べ物として選んだり、「慶尚北道安東市でリンゴ果樹園を営んでいます」のような非現実的な結果を出力
- Claude Opus 4.7で韓国のペルソナ2,000件を無作為抽出した結果、職業分布で**77.6%が「ユジャ栽培農家」**として生成される極端なバイアスを確認
- GPT-5.4では**90.1%が「介護職員」**として生成
- 都市分布、家族形態、住宅占有形態、食の嗜好など、あらゆる側面で韓国の実情に合わないバイアスが存在
データセットの概要と目的
- 韓国人口の多様性と特性を幅広く反映するよう設計されたオープンソースの合成ペルソナデータセット
- 韓国語で誰でも読みやすいように作成
- ソブリンAIシステム構築時に、学習データの欠損データおよび潜在的バイアスを緩和することが主な目標
- 合成データ生成に用いられる既存ペルソナデータセットのバイアス、とくに年齢・地域・教育水準・職業の軸での偏り解消に焦点
データソースと制作方法
- KOSIS(統計庁国家統計ポータル)の性別、地域、産業、職業、旅行、余暇生活に関する国勢調査データを活用
- 韓国大法院の出生年・性別・名前データ、国民健康保険公団の健康診断情報、農村経済研究院の食品消費行動調査結果を活用
- NAVER Cloudが設計段階で初期データとドメイン専門知識を提供
- 独自の確率的グラフィカルモデル(PGM)、Apache-2.0ライセンスのgoogle/gemma-4-31B-itモデル、そしてNeMo Data Designerの検証・評価手法を使用
- 名前・年齢・性別・地域・婚姻・家族・住居・学歴・専攻分野・経済活動・所得・産業群・職業群・血圧・血糖・腹囲・BMI・旅行・余暇生活・好みの飲食店種類・デリバリーおよび外食頻度などを包括
- すべてのデータは実際の分布を反映しつつ、完全に人工的に合成されており、実在人物との類似は偶然によるもの
データセットの規模と構成
- 合計17億トークン(ペルソナ10億トークン)で構成された100万件のレコード
- 26個のフィールド: 7個のペルソナフィールド、6個のペルソナ属性フィールド、12個の人口統計・地理コンテキストフィールド、1個の一意識別子
- 17の広域自治体、252の市・郡・区を網羅する包括的な行政区域カバレッジ
- 20万9千超の固有氏名の組み合わせ(118の姓、2万1,400の名前)
- 7種類のペルソナタイプ: 職業、スポーツ、芸術、旅行、食、家族、要約
- 追加のペルソナ属性: 文化的背景、技術および専門性、キャリア目標・志向、趣味・関心事
名前の分布
- 現在、韓国で公開されている名前データは2008年以降に限定
- Nemotron-Personas-Koreaは、1940年からの韓国の名前の全数データを基にした初の公開データセット
- 「82歳のキム・ハユルさん?」「21歳のキム・スンジャさん?」のような、時代背景に合わない名前割り当ての問題を解決
- 姓の分布は、Kim(21.5%)、Lee(14.7%)、Park(8.5%)、Jung(4.8%)、Choi(4.7%)など上位5姓で全体の約**54%**を占める
- 名前は性別と出生年に応じて世代ごとの命名傾向を反映
- 女性: ヨンスク・ジョンスク・スンジャなど高年齢層の名前と、ジヨン・ユジン・ジヒョンなど若い世代の名前が共存
- 男性: ジフン・ヒョヌ・ジュノなど現代的な名前が上位を占める
- 最も頻出するフルネームはキム・ヨンスクで、実際の調査結果と一致
年齢分布
- 中央が膨らんだつぼ型の構造で、少子化と高齢化が同時に進む現在の人口構造を忠実に反映
- 最も厚い区間は50〜64歳(比率約0.09)で、1960〜70年代のベビーブーム世代に相当
- 70歳以上の高齢層では女性比率が男性より明確に高い
- 80〜89歳区間では女性比率が男性の約1.52倍
婚姻状態の分布
- 未婚比率は19〜24歳で95%以上、30代で55%→31%へ低下し、平均初婚年齢31〜33歳の晩婚傾向と一致
- 有配偶者比率は35歳から64%に上昇し、50代後半の**78%**でピーク
- 死別は60代から急増し、80代後半で66%、90代で**74〜81%**に到達
- 離婚は50代〜60代前半で約**12%**と最も高く、熟年離婚の傾向に合致
世帯類型の分布
- 全年齢帯で夫婦+未婚子世帯が最も高い比率を占め、19歳で63.6%と最大
- 50代以降は夫婦のみ世帯が急増し、65〜69歳で45.7%のピーク
- 単身世帯は20代前半(15〜22%)と75歳以降(21〜32%)で二峰性パターン
- 母+未婚子世帯(5〜14%)が父+未婚子世帯(2〜5%)より高く、ひとり親世帯の性別非対称を確認
学歴水準の分布
- 20〜34歳の若年層では4年制大学卒業比率が50%超、短大を含めると約75%が大学以上の学歴を保有
- 80歳以上では無学(36%)と小学校(37%)で全体の**73%**を占める
- 地域別では世宗(49.0%)、ソウル(45.1%)、大田(39.7%)の順で学士以上の比率が高い
- 世宗は政府世宗庁舎移転に伴う高学歴の公務員・研究職流入の影響
職業分布
- 専門職と事務職が最も大きな比率を占め、サービス・知識基盤経済の構造を反映
- 販売職ではオンラインショッピング販売員(19.8%)が1位で、高い電子商取引比率を確認
- 単純労務では警備員(21.3%)と清掃員(16.0%)に集中
- 軍人は全就業者の約**1%**で、陸軍が3分の2超を占める
技術的制約と限界
- 公開データの可用性・時宜性・PGMモデルの現実的制約により、特定変数間に独立性仮定を適用
- 例: 詳細な職業割り当て時に、性別、所得、学歴、専攻などが独立して影響すると仮定し、交互作用は未反映
- **ジェンダー(gender)**に関する包括的統計は韓国の公共データに存在しないため未反映
- 満19歳以上の成人ペルソナのみを含む
- 金融、ヘルスケアなどエンタープライズ顧客関連のペルソナは除外
LLM依存方式と比べた改善結果
- LLMのみに依存すると都市分布が順天市・昌原市などに偏っていたが、Nemotron-Personas-Koreaは京畿道華城市・南楊州市・ソウル松坡区など実際の人口比例分布を反映
- 家族形態は単身世帯一辺倒から、配偶者同居・配偶者+子ども同居・親同居など多様な形態へ拡張
- 住宅占有形態も持ち家100%から、持ち家と賃貸の実際の比率を反映
- 食の分布もサラダ一辺倒から、ビビンバ・和食・チキン・カルビ・サムギョプサル・トッポッキ・軽食・パン・テンジャンチゲ・ジャージャー麺など実際の食文化を反映
文化反映の事例
- 「仕事帰りに同僚とサムギョプサルにソジュを添えて一日の疲れを癒やす、33歳のパラサイトシングルのチョン・ジュンさん」 — ソウル松坡区在住、4年制大学卒、未婚、親と同居など、韓国社会のパラサイトシングル現象を反映
- 「シム・スボンの歌や、家族のグループチャットに写真を上げるのが好きな蔚山の73歳キム・チュニさん」 — 女性、無学、配偶者あり、無職など、高齢女性人口を反映
ペルソナデータセットがLLMに役立つ理由
- 人はそれぞれ固有の知識を持っており、ペルソナはそうした固有知識を凝縮した表現型
- 例: 電気技師のペルソナは、電気関連知識をLLMから引き出す媒介となる
- 合成データでは多様性が非常に重要な指標であり、人こそが最良の多様性の源泉
- 「{与えられたペルソナ}に関連する論理推論問題を作ってみて」の形で、ペルソナごとの多様な合成学習データを生成可能
実際の活用事例
- 一般的なツール利用性能の向上: ユーザー-LLMにtool setとペルソナを一緒に与えてデータ合成・学習。Nemotron-Nano-9B-v2-Japaneseがこの方法論を採用し、Nejumiリーダーボード1位を達成。同様の手法をNemotron Nano v3とSuper v3にも導入
- モデル安全性の向上: Sensitive-safety-category-refusals(SSCR)データセットのシードデータとして活用。SSCRデータセットはnemotron-safety-blendに含まれる
利用方法とライセンス
- Python
datasetsライブラリでload_dataset("nvidia/Nemotron-Personas-Korea")を呼び出してロード可能 - CC BY 4.0ライセンスで、商用・非商用のいずれにも自由に利用可能
- NeMo Data Designerで直接利用できる拡張版も別途提供
10件のコメント
ちょうどGeekNewsに一度投稿しようと思っていたところでした..
https://manyperson.com/
関連するペルソナサービスを作っています。 同じくMDISデータを使って、私はGeminiを活用しました。
Show GN: ManyPerson - 統計庁MDISベースの韓国AIペルソナ世論シミュレーター
資料ありがとうございます
良い資料をありがとうございます。こういう形でペルソナが構成されるのですね。
役に立ちます!
https://github.com/civilian7/korean-people-persona
個人的な必要から、
公開された資料をsqlite3に変換できるPythonプログラムと、
mcpサーバーのサンプルを作成して公開しました。
20代の4年制大学進学率が50%に届いていなかったのもかなり最近までのことだった気がしますが、今はもう超えているんですね
興味深い統計がたくさんありますね
このデータセットに関する発表資料を参考にして、説明を補足しました。
Nemotron-Personas-Korea、初の韓国ペルソナデータセットを公開します! - LinkedIn
Nemotron-Personas-Korea : 初の韓国ペルソナデータセット - PDFリンク
海外のLLMが作るものと比べると、あまりにも現実味のあるペルソナですね。
「パク・ホチョルさんはヘッドセットを着け、日に何十件もの怒声まじりの苦情や問い合わせを黙々と受け止めながら、複雑な保険約款をまるで隣のおじさんが説明するようにわかりやすく解きほぐす、原州保険センターのベテラン相談員です。
パジュの臨津江沿いの静かな風景の中で数十年を過ごし、高校卒業後すぐに配管の現場に飛び込み、体で身につけた人生の知恵が深い人物です。最近ではスマートフォンで最新の家電製品レビューや世の中の動きを伝える動画を欠かさず見て、新しい情報にも耳を傾けています。」