AI-readable 官報 - 大韓民国官報12.8万件をPDFからMarkdownコーパスへ

(github.com/hosungseo)

16 ポイント投稿者 hosungseo2026 2026-04-19 | 2件のコメント | WhatsAppで共有

わが国の官報はすでに公開されている。公共データポータルからPDFで受け取ることができ、検閲もない。ではなぜ研究者・記者・開発者・市民団体・公務員が、同じ官報を毎回それぞれ改めてパースしているのだろうか。
大韓民国官報約12.8万件（2020.01.02 ~ 2026.04.07、1,474日付グループ）をMarkdownで再インデックス化し、OCRを辞書ベースで累積補正した、人とAIが一緒に読める官報派生コーパス
作者は中央省庁の行政事務官
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/

人間向け公開の限界

「公開されている」と「AIエージェントが使える」の間の隔たりは、思ったより大きい
PDFでは条文単位の比較ができず、機関・日付・事件単位のフィルタが難しく、OCRは崩れ、表構造は損なわれる
その結果、前処理コストがユーザー（エージェント）側に継続して転嫁される。記者・研究者・公務員が同じPDFをそれぞれ再び分解している
透明性の次の段階は「より多く公開すること」ではなく、「同じものを機械が読めるようにすること」

何が入っているか

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128,403件の補正済みMarkdown
frontmatterにtitle / publisher / date / source_raw_md — そのままchunk → 埋め込み → RAGへ直接投入できる
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — 静的JSONインデックス。CORS制限なしで外部サイトからfetch可能
Live Readerはビルドツールなしで開ける純粋なHTML（検索・ヒートマップ・TOC・ダークモード・キーボードショートカットを含む）
機関カバレッジ: 中央省庁 ~108,800件、司法 ~7,700件、教育 ~4,100件、自治体 ~3,300件など約1,600機関

OCR: 国産オープンソースの上で

PDFテキスト抽出OCRには、Hancomのオープンソースツールであるオープンデータローダー（opendataloader）を使用
他のツールではなくこれを選んだのは意図的。官報という公共データを扱う作業なので、ツールも国産オープンソースの上で動くのがふさわしいと考えた
オープンデータローダー自体が進化すれば、文字化けも減り、補正辞書も自然とさらに軽くなる
ツールが良くなれば、コーパスも一緒に良くなる構造

PDFの上にもう1層

PDFで公開するのは改ざん防止の観点から妥当な選択。原本がPDFであること自体は問題ではない
解決策は「PDF公開をやめよう」ではなく、「PDFは原本として残し、その上にAI-readableな派生レイヤーを1つ追加しよう」
このリポジトリは原文を消したり作り直したりしない。元のPDFはそのままに、その上へ派生読解コーパスだけを積み上げる2層構造

2件のコメント

meta1001 9 일 전

とても良いですね。実際に政策ブリーフィングで推進している政策が、国家政策や法令の中でどう変化していくのかをリアルタイムでAIに分析させ、結果を出せるわけですね。

limhasic 2026-04-20

へへ、これで何するの？

AI-readable 官報 - 大韓民国官報12.8万件をPDFからMarkdownコーパスへ

関連記事

2件のコメント