7 ポイント 投稿者 xguru 2020-03-25 | 2件のコメント | WhatsAppで共有
  • 韓国語を含む66言語をサポートする、言語非依存の自然言語処理ツールキット

  • PyTorchベース

  • テキスト分析のための完全なニューラルネットワークパイプライン

    トークン化、複合語トークン(MWT)の展開、レンマ化

    品詞(POS)および形態素タグ付け、係り受け解析、固有表現認識

  • Stanford NLP Groupが開発・公開

    → 既存公開のCoreNLP Javaと連携可能なインターフェースも含む

2件のコメント

 
sftblw 2020-03-25

NER(固有表現抽出)は、残念ながら対応している言語数が少ないようですね。

韓国語は含まれておらず、アラビア語、中国語、ドイツ語、英語、フランス語、オランダ語、スペイン語の8言語に対応しているそうです。

 
xguru 2020-03-25

韓国語モデルは2つです。

Universal Dependencies (UD) https://universaldependencies.org/ に登録されているもののうち、トークン数の多い Kaist と GSD を持ってきたようです。

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html