AI-readable 官報 - 大韓民国官報12.8万件をPDFからMarkdownコーパスへ
(github.com/hosungseo)わが国の官報はすでに公開されている。公共データポータルからPDFで受け取ることができ、検閲もない。ではなぜ研究者・記者・開発者・市民団体・公務員が、同じ官報を毎回それぞれ改めてパースしているのだろうか。
大韓民国官報約12.8万件(2020.01.02 ~ 2026.04.07、1,474日付グループ)をMarkdownで再インデックス化し、OCRを辞書ベースで累積補正した、人とAIが一緒に読める官報派生コーパス
作者は中央省庁の行政事務官
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/
人間向け公開の限界
- 「公開されている」と「AIエージェントが使える」の間の隔たりは、思ったより大きい
- PDFでは条文単位の比較ができず、機関・日付・事件単位のフィルタが難しく、OCRは崩れ、表構造は損なわれる
- その結果、前処理コストがユーザー(エージェント)側に継続して転嫁される。記者・研究者・公務員が同じPDFをそれぞれ再び分解している
- 透明性の次の段階は「より多く公開すること」ではなく、「同じものを機械が読めるようにすること」
何が入っているか
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— 128,403件の補正済みMarkdown- frontmatterに
title / publisher / date / source_raw_md— そのままchunk → 埋め込み → RAGへ直接投入できる docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— 静的JSONインデックス。CORS制限なしで外部サイトからfetch可能- Live Readerはビルドツールなしで開ける純粋なHTML(検索・ヒートマップ・TOC・ダークモード・キーボードショートカットを含む)
- 機関カバレッジ: 中央省庁 ~108,800件、司法 ~7,700件、教育 ~4,100件、自治体 ~3,300件など約1,600機関
OCR: 国産オープンソースの上で
- PDFテキスト抽出OCRには、Hancomのオープンソースツールであるオープンデータローダー(opendataloader)を使用
- 他のツールではなくこれを選んだのは意図的。官報という公共データを扱う作業なので、ツールも国産オープンソースの上で動くのがふさわしいと考えた
- オープンデータローダー自体が進化すれば、文字化けも減り、補正辞書も自然とさらに軽くなる
- ツールが良くなれば、コーパスも一緒に良くなる構造
PDFの上にもう1層
- PDFで公開するのは改ざん防止の観点から妥当な選択。原本がPDFであること自体は問題ではない
- 解決策は「PDF公開をやめよう」ではなく、「PDFは原本として残し、その上にAI-readableな派生レイヤーを1つ追加しよう」
- このリポジトリは原文を消したり作り直したりしない。元のPDFはそのままに、その上へ派生読解コーパスだけを積み上げる2層構造
2件のコメント
とても良いですね。実際に政策ブリーフィングで推進している政策が、国家政策や法令の中でどう変化していくのかをリアルタイムでAIに分析させ、結果を出せるわけですね。
へへ、これで何するの?