Stanza - オープンソースのPython NLPライブラリ
(stanfordnlp.github.io)-
韓国語を含む66言語をサポートする、言語非依存の自然言語処理ツールキット
-
PyTorchベース
-
テキスト分析のための完全なニューラルネットワークパイプライン
トークン化、複合語トークン(MWT)の展開、レンマ化
品詞(POS)および形態素タグ付け、係り受け解析、固有表現認識
-
Stanford NLP Groupが開発・公開
→ 既存公開のCoreNLP Javaと連携可能なインターフェースも含む
2件のコメント
NER(固有表現抽出)は、残念ながら対応している言語数が少ないようですね。
韓国語は含まれておらず、アラビア語、中国語、ドイツ語、英語、フランス語、オランダ語、スペイン語の8言語に対応しているそうです。
韓国語モデルは2つです。
Universal Dependencies (UD) https://universaldependencies.org/ に登録されているもののうち、トークン数の多い Kaist と GSD を持ってきたようです。
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html