elbird - 日本語形態素解析器 kiwi の R ラッパーパッケージ (github.com)
(github.com/mrchypark)elbird は、個人的にこれまで公開してきた kiwigo の最終目標となるパッケージです。
R の各種形態素解析パッケージは、KoNLP(Java ベース、現在は * CRAN から外れている)、RcppMecab(mecab ベース、高速、原文復元はしない)が二分しており、そのほかにもいくつかのパッケージがある状況です。
KoNLP が主流だった状況で、JDK のインストールが難しいことに加え、現在 CRAN にない状況も重なり、インストールしやすく、継続的にメンテナンスされる新しい形態素解析パッケージを CRAN に掲載するため努力してきました。
そこで、移植性に優れた cpp で開発中の kiwi を知ることになりました。
その後長い時間を経て、ついに cpp の機能をラップして R パッケージを制作し、CRAN への登録を完了できました。
現在は 0.1.1 バージョンが登録されており、まもなく 0.1.2 に更新する予定です。
現在実装されている機能は基本的な利用が可能なレベルで、kiwi のすべての機能を実装した後に kiwi のバージョンに合わせる作業を進める予定です。
readme には基本的な使用コード例があり、R エコシステムで有名なテキスト分析パッケージ tidytext と併用するための機能も考慮されています。
多くの関心をお願いします。
* CRAN: R の公式パッケージリポジトリ。ここは自動テストと管理者レビューを経る管理型リポジトリで、エバーグリーンポリシー(テスト失敗時は登録取り消し)を採用しているため、継続的な管理が必要です。
1件のコメント
cpp 開発とコンパイルの経験があまりなく、その点で多くの助けが必要でもあります。
もし助言していただける方がいらっしゃれば、Issue タブをご確認いただけると幸いです。