- 統計庁、大法院、国民健康保険公団などの公共データを基に、実際の人口統計・地理・性格分布を反映した初の大規模韓国語ペルソナデータセット
- 100万件のレコードに700万件のペルソナを含み、氏名・性別・年齢・婚姻状態・教育水準・職業・居住地域など26個のフィールドで構成
- エンタープライズ級の合成データ生成システムであるNeMo Data Designerとgoogle/gemma-4-31B-itモデルを活用して制作
- 既存のペルソナデータセットに比べ、高齢層、農村地域、多様な学歴・職業分布をより忠実に反映し、ソブリンAIモデルのバイアス緩和に貢献
- CC BY 4.0ライセンスで商用・非商用の両方で自由に利用可能
既存LLMが生成する韓国ペルソナの問題点
- ペルソナとは、個人の固有の特性・関心・性格・職業などの記述であり、ペルソナを集めたデータセットは、その集団の文化的・分布的特性を正しく反映する必要がある
- 海外のLLMに「韓国社会の現実的で多様な人物プロフィールを生成せよ」とプロンプトを与えても、結果は深刻に歪んでいる
- 生成されたペルソナの40%が最も好きな食べ物としてサラダを選んだり、「慶尚北道安東市でリンゴ果樹園を運営しています」のような非現実的な結果を出力
- Claude Opus 4.7で韓国のペルソナ2,000件を無作為抽出した結果、職業分布で**77.6%が「ユズ栽培農家」**として生成される極端なバイアスを確認
- GPT-5.4では**90.1%が「介護ヘルパー」**として生成
- 都市分布、家族形態、住居占有形態、食の好みなどあらゆる面で韓国の実情に合わないバイアスが存在
データセット概要と目的
- 韓国の人口の多様性と特性を幅広く反映するよう設計されたオープンソースの合成ペルソナデータセット
- 韓国語で誰でも読みやすいように作成
- ソブリンAIシステム構築時に、学習データの欠損データおよび潜在的バイアスを緩和することが主な目標
- 合成データ生成に用いられる既存ペルソナデータセットのバイアス、とくに年齢・地域・教育水準・職業の軸におけるバイアス解消に焦点
データソースと制作方式
- KOSIS(統計庁国家統計ポータル)の性別、地域、産業、職業、旅行、余暇生活に関する国勢調査データを活用
- 大法院の出生年・性別・氏名データ、国民健康保険公団の健康診断情報、韓国農村経済研究院の食品消費行動調査結果を活用
- NAVER Cloudが設計段階で初期データとドメイン専門知識を提供
- 独自の確率的グラフモデル(PGM)、Apache-2.0ライセンスのgoogle/gemma-4-31B-itモデル、そしてNeMo Data Designerの検証・評価手法を使用
- 氏名・年齢・性別・地域・婚姻・家族・住居・学歴・専攻分野・経済活動・所得・産業群・職業群・血圧・血糖・ウエスト周囲径・BMI・旅行・余暇生活・好みの飲食店の種類・デリバリーおよび外食頻度などを包括
- すべてのデータは実際の分布を反映しつつ完全に人工的に合成されており、実在人物との類似は偶然によるもの
データセットの規模と構成
- 合計17億トークン(ペルソナ10億トークン)で構成された100万件のレコード
- 26個のフィールド: 7個のペルソナフィールド、6個のペルソナ属性フィールド、12個の人口統計・地理コンテキストフィールド、1個の一意識別子
- 17の市・道、252の市・郡・区を網羅する包括的な行政区域カバレッジ
- 約20万9,000件の一意な氏名組み合わせ(118の姓、2万1,400の名前)
- 7種類のペルソナタイプ: 職業、スポーツ、芸術、旅行、食、家族、要約
- 追加のペルソナ属性: 文化的背景、技術および専門性、キャリア目標・志向、趣味・関心
名前の分布
- 現在、韓国で公開されている氏名データは2008年以降に限定されている
- Nemotron-Personas-Koreaは初めて1940年以降の韓国の氏名全数データに基づいた公開データセット
- 「82歳のキム・ハユルさん?」「21歳のキム・スンジャさん?」のような時代に合わない名前の割り当ての問題を解決
- 姓の分布は、キム(21.5%)、イ(14.7%)、パク(8.5%)、チョン(4.8%)、チェ(4.7%)など上位5つの姓が全体の約**54%**を占める
- 名前は性別と出生年に応じて世代別の命名傾向を反映
- 女性: ヨンスク・ジョンスク・スンジャなど高年齢層の名前と、ジヨン・ユジン・ジヒョンなど若い世代の名前が共存
- 男性: ジフン・ヒョヌ・ジュノなど現代的な名前が上位を占める
- 最も頻出するフルネームはキム・ヨンスクで、実際の調査結果と一致
年齢分布
- 中央が膨らんだつぼ型の構造で、少子化・高齢化が同時に進む現在の人口構造を忠実に反映
- 最も厚い区間は50〜64歳(比率約0.09)で、1960〜70年代のベビーブーム世代に該当
- 70歳以上の高齢層では女性比率が男性より明確に高い
婚姻状態の分布
- 未婚比率は19〜24歳で95%以上、30代では55%→31%へ低下し、平均初婚年齢31〜33歳の晩婚傾向と一致
- 有配偶者比率は35歳から64%に上昇し、50代後半の**78%**でピーク
- 死別は60代から急増し、80代後半で66%、90代で**74〜81%**に到達
- 離婚は50代〜60代前半で約**12%**と最も高く、熟年離婚の傾向に合致
世帯タイプの分布
- 全年齢帯で夫婦+未婚子ども世帯が最も高い比率で、19歳で63.6%と最高値
- 50代以降は夫婦のみ世帯が急増し、65〜69歳で45.7%のピーク
- 単身世帯は20代前半(15〜22%)と75歳以降(21〜32%)で二峰性パターン
- 母+未婚子ども世帯(5〜14%)が父+未婚子ども世帯(2〜5%)より高く、ひとり親世帯の性別非対称性を確認
学歴水準の分布
- 20〜34歳の若年層は4年制大学卒比率が50%超、短大を含めると約75%が大学以上の学歴を保有
- 80歳以上では無学(36%)と小学校(37%)が全体の**73%**を占める
- 地域別では、世宗(49.0%)、ソウル(45.1%)、大田(39.7%)の順に学士以上の比率が高い
- 世宗は政府世宗庁舎移転に伴う高学歴の公務員・研究職流入の影響
職業分布
- 専門職と事務職が最も大きな比率を占め、サービス・知識基盤経済の構造を反映
- 販売職ではオンラインショッピング販売員(19.8%)が1位で、高い電子商取引比率を確認
- 単純労務では建物警備員(21.3%)と建物清掃員(16.0%)に集中
- 軍人は全就業者の約**1%**で、陸軍が3分の2以上を占める
技術的制約と限界
- 公開データの可用性・適時性・PGMモデルの現実的制約により、特定変数間に独立性の仮定を適用
- 例: 詳細な職業割り当て時に、性別、所得、学歴、専攻などが独立して影響すると仮定し、交互作用は未反映
- **ジェンダー(gender)**に関する包括的統計は韓国の公共データに存在しないため未反映
- 満19歳以上の成人ペルソナのみを含む
- 金融、ヘルスケアなどエンタープライズ顧客関連のペルソナは除外
LLM依存方式と比べた改善結果
- LLMのみに依存した場合、都市分布が順天市・昌原市などに偏っていたが、Nemotron-Personas-Koreaは京畿道華城市・南楊州市・ソウル松坡区など実際の人口比例分布を反映
- 家族形態も単身世帯一辺倒から、配偶者同居・配偶者+子ども同居・親同居など多様な形態へ拡張
- 住居占有形態も持ち家100%から持ち家と賃貸の実際の比率を反映
- 食の分布もサラダ一辺倒から、ビビンバ・和食・チキン・カルビ・サムギョプサル・トッポッキ・粉食・パン・テンジャンチゲ・チャジャンミョンなど実際の食文化を反映
文化反映の事例
- 「退勤時に同僚とサムギョプサルに焼酎を合わせて一日の疲れを癒やす33歳のパラサイトシングル、チョン・ジュンさん」 — ソウル松坡区在住、4年制大学卒、未婚、親と同居など、韓国社会のパラサイトシングル現象を反映
- 「シム・スボンの歌や、家族のグループチャットに写真を投稿するのが好きな蔚山の73歳キム・チュニさん」 — 女性、無学、有配偶、無職など高齢女性人口を反映
ペルソナデータセットがLLMに役立つ理由
- 人はそれぞれ固有の知識を持ち、ペルソナはそうした固有知識を凝縮した表現型
- 例: 電気技師のペルソナは、電気関連の知識をLLMから引き出せる媒介になる
- 合成データでは多様性が非常に重要な指標であり、人こそが最良の多様性の源泉
- 「{与えられたペルソナ}に関連する論理的推論問題を作ってみて」という形で、ペルソナごとの多様な合成学習データを生成可能
実際の活用事例
- 一般的なツール利用性能の向上: ユーザー-LLMにtool setとペルソナを一緒に与えてデータ合成と学習を実施。Nemotron-Nano-9B-v2-Japaneseがこの方法論を採用し、Nejumiリーダーボード1位を達成。類似の方法をNemotron Nano v3とSuper v3にも導入
- モデル安全性の向上: Sensitive-safety-category-refusals(SSCR)データセットのシードデータとして活用。SSCRデータセットはnemotron-safety-blendに含まれる
使用方法とライセンス
- Pythonの
datasetsライブラリでload_dataset("nvidia/Nemotron-Personas-Korea")を呼び出してロード可能
- CC BY 4.0ライセンスで商用・非商用の両方で自由に利用可能
- NeMo Data Designerで直接利用できる拡張版も別途提供
10件のコメント
ちょうどGeekNewsに一度投稿しようと思っていたところでした..
https://manyperson.com/
関連するペルソナサービスを作っています。 同じくMDISデータを使って、私はGeminiを活用しました。
Show GN: ManyPerson - 統計庁MDISベースの韓国AIペルソナ世論シミュレーター
資料ありがとうございます
良い資料をありがとうございます。こういう形でペルソナが構成されるのですね。
役に立ちます!
https://github.com/civilian7/korean-people-persona
個人的な必要から、
公開された資料をsqlite3に変換できるPythonプログラムと、
mcpサーバーのサンプルを作成して公開しました。
20代の4年制大学進学率が50%に届いていなかったのもかなり最近までのことだった気がしますが、今はもう超えているんですね
興味深い統計がたくさんありますね
このデータセットに関する発表資料を参考にして、説明を補足しました。
Nemotron-Personas-Korea、初の韓国ペルソナデータセットを公開します! - LinkedIn
Nemotron-Personas-Korea : 初の韓国ペルソナデータセット - PDFリンク
海外のLLMが作るものと比べると、あまりにも現実味のあるペルソナですね。
「パク・ホチョルさんはヘッドセットを着け、日に何十件もの怒声まじりの苦情や問い合わせを黙々と受け止めながら、複雑な保険約款をまるで隣のおじさんが説明するようにわかりやすく解きほぐす、原州保険センターのベテラン相談員です。
パジュの臨津江沿いの静かな風景の中で数十年を過ごし、高校卒業後すぐに配管の現場に飛び込み、体で身につけた人生の知恵が深い人物です。最近ではスマートフォンで最新の家電製品レビューや世の中の動きを伝える動画を欠かさず見て、新しい情報にも耳を傾けています。」