Pandocベースの Hancom Hangul 変換ツール - md、html、docx を hwpx に変換するオープンソースツールの紹介
(github.com/msjang)政府系研究機関で働いて9年目、HWP 文書作業の不便さを解消したくて開発しました。
開発の背景
- 2018年: Python 初心者だった頃、正規表現ベースの HML/HWPML 変換器を試作 - https://github.com/msjang/md2hml
- 2025年1月: hwpfy を開発
- リアルタイム共同編集ウィキをベースに、20人余りの週間業務報告を取りまとめ
- ウィキ → DOCX エクスポート → 公務員書式を適用した DOCX に変換(hwpfy) → Hangul アプリで開いて HWPX として保存 → 所内の上位部署に HWPX で共有
- 2025年12月: pypandoc-hwpx
- もう十分に実力が身についたと思い、腰を据えて時間を投資して開発しました。
開発方法
- DOCX を希望する書式で作成し、HWPX として保存しました。
- 生成された DOCX と HWPX を unzip して XML を見ながら不要な属性を削り、整えました。そして Word と Hangul アプリで問題なく開けるかも確認しました。
- md、html、docx、hwpx フォーマットを比較する文書を作成しました。 - https://github.com/msjang/pypandoc-hwpx/…
- もともとは上記の
format_comparison.mdを見せて LLM にコーディングさせようと思っていましたが、すでに正解となる HWPX がある状況だと気づきました。 - Antigravity(Gemini Pro 3) と何度もフィードバックを重ねながら作りました。望む形式になかなかならなかったため、XML を細かく確認しながらフィードバックを与えました。フォーマット比較文書を直接言及はしませんでしたが、内容を把握していたことがレビューに大いに役立ちました。
今後やりたいこと
Pypandoc から Python を取り除き、Haskell で実装して Pandoc に HWPX writer をコントリビュートしたいです.
まだコメントはありません。