16 ポイント 投稿者 hosungseo2026 2026-04-19 | 2件のコメント | WhatsAppで共有

わが国の官報はすでに公開されている。公共データポータルからPDFで受け取ることができ、検閲もない。ではなぜ研究者・記者・開発者・市民団体・公務員が、同じ官報を毎回それぞれ改めてパースしているのだろうか。
大韓民国官報約12.8万件(2020.01.02 ~ 2026.04.07、1,474日付グループ)をMarkdownで再インデックス化し、OCRを辞書ベースで累積補正した、人とAIが一緒に読める官報派生コーパス
作者は中央省庁の行政事務官
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/


人間向け公開の限界

  • 「公開されている」と「AIエージェントが使える」の間の隔たりは、思ったより大きい
  • PDFでは条文単位の比較ができず、機関・日付・事件単位のフィルタが難しく、OCRは崩れ、表構造は損なわれる
  • その結果、前処理コストがユーザー(エージェント)側に継続して転嫁される。記者・研究者・公務員が同じPDFをそれぞれ再び分解している
  • 透明性の次の段階は「より多く公開すること」ではなく、「同じものを機械が読めるようにすること」

何が入っているか

  • derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128,403件の補正済みMarkdown
  • frontmatterにtitle / publisher / date / source_raw_md — そのままchunk → 埋め込み → RAGへ直接投入できる
  • docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — 静的JSONインデックス。CORS制限なしで外部サイトからfetch可能
  • Live Readerはビルドツールなしで開ける純粋なHTML(検索・ヒートマップ・TOC・ダークモード・キーボードショートカットを含む)
  • 機関カバレッジ: 中央省庁 ~108,800件、司法 ~7,700件、教育 ~4,100件、自治体 ~3,300件など約1,600機関

OCR: 国産オープンソースの上で

  • PDFテキスト抽出OCRには、Hancomのオープンソースツールであるオープンデータローダー(opendataloader)を使用
  • 他のツールではなくこれを選んだのは意図的。官報という公共データを扱う作業なので、ツールも国産オープンソースの上で動くのがふさわしいと考えた
  • オープンデータローダー自体が進化すれば、文字化けも減り、補正辞書も自然とさらに軽くなる
  • ツールが良くなれば、コーパスも一緒に良くなる構造

PDFの上にもう1層

  • PDFで公開するのは改ざん防止の観点から妥当な選択。原本がPDFであること自体は問題ではない
  • 解決策は「PDF公開をやめよう」ではなく、「PDFは原本として残し、その上にAI-readableな派生レイヤーを1つ追加しよう」
  • このリポジトリは原文を消したり作り直したりしない。元のPDFはそのままに、その上へ派生読解コーパスだけを積み上げる2層構造

2件のコメント

 
meta1001 9 일 전

とても良いですね。実際に政策ブリーフィングで推進している政策が、国家政策や法令の中でどう変化していくのかをリアルタイムでAIに分析させ、結果を出せるわけですね。

 
limhasic 2026-04-20

へへ、これで何するの?