Stanza - オープンソースのPython NLPライブラリ

xguru · 2020-03-25T16:05:16+09:00

韓国語を含む66言語をサポートする、言語非依存の自然言語処理ツールキット PyTorchベーステキスト分析のための完全なニューラルネットワークパイプライントークン化、複合語トークン（MWT）の展開、レンマ化品詞（POS）および形態素タグ付け、係り受け解析、固有表現認識 Stanford NLP Groupが開発・公開 → 既存公開のCoreNLP Javaと連携可能なインターフェースも含む

(stanfordnlp.github.io)

7 ポイント投稿者 xguru 2020-03-25 | 2件のコメント | WhatsAppで共有

韓国語を含む66言語をサポートする、言語非依存の自然言語処理ツールキット
PyTorchベース
テキスト分析のための完全なニューラルネットワークパイプライン

トークン化、複合語トークン（MWT）の展開、レンマ化

品詞（POS）および形態素タグ付け、係り受け解析、固有表現認識
Stanford NLP Groupが開発・公開

→ 既存公開のCoreNLP Javaと連携可能なインターフェースも含む

2件のコメント

sftblw 2020-03-25

NER（固有表現抽出）は、残念ながら対応している言語数が少ないようですね。

韓国語は含まれておらず、アラビア語、中国語、ドイツ語、英語、フランス語、オランダ語、スペイン語の8言語に対応しているそうです。

xguru 2020-03-25

韓国語モデルは2つです。

Universal Dependencies (UD) https://universaldependencies.org/ に登録されているもののうち、トークン数の多い Kaist と GSD を持ってきたようです。

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - オープンソースのPython NLPライブラリ

関連記事

2件のコメント