Garu: ブラウザで動作する1.7MBの韓国語形態素解析器(F1 95.3%、WASM)
(github.com/ongjin)サーバーなしでブラウザ上で実行される韓国語形態素解析器を作りました。
既存の形態素解析器(Kiwi 約40MB、MeCab-ko 約50MB)はサーバー環境を前提に設計されているため、クライアントサイドで形態素解析が必要な場合に選択肢がありませんでした。
Garuはコードブック + Viterbiベースの非ニューラルネットワークアーキテクチャにより、1.7MBのモデルと93KBのWASMエンジンだけでブラウザ上で直接実行されます。
- モデルサイズ: 1.7MB(gzip 約950KB、ネットワーク転送は約1MB)
- 精度: F1 95.3%(NIKL みんなのコーパス基準)
- 比較: Kiwi 87.9% / MeCab-ko 約85%
- ニューラルネットワークなし: 学習パラメータ0個、純粋なルックアップ + Viterbiデコーディング
npm install garu-koでサーバー/ブラウザの両方で利用可能
BiLSTMの知識蒸留、ジャソ単位のシーケンスラベリングなど、2度の失敗を経てコードブック + ビタビという非ニューラルアーキテクチャに到達しました。76.1%から95.3%までの最適化過程(NIKLゴールドデータの直接学習、スマート語節キャッシュ、文脈ベースの後処理ルールなど)を技術論文にまとめました。
GitHub: https://github.com/ongjin/garu
技術論文: https://github.com/ongjin/garu/blob/main/docs/paper.md
npm: https://www.npmjs.com/package/garu-ko
1件のコメント
Show GNへ移動しました。
参考までに、moderatorが分類を調整した投稿はホーム画面での露出が制限される場合がありますので、登録前にカテゴリーをもう一度ご確認ください。