著者
吉田 辰巳 大竹 清敬 山本 和英
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.102, no.200, pp.59-64, 2002-07-09

現在入手可能なツールと言語資源を用いて中国語形態素解析を行った場合にどの程度の精度が得られるかを報告する.解析ツールにサポートベクトルマシン(SVM)を用いたYamCha,ならびにコスト最小法に基づく形態素解析器としてMOZを用いた.中国語コーパスとしては,最も一般的なPenn Chinese Treebank(10万語)を使用した.これらを組み合わせて,形態素解析実験を行った.この結果,YamChaによる形態素解析精度は約88%でMOZよりも4%以上高いが,実用的には計算時間に問題があることが分った.また,より大きなタグ付きコーパスとして人民日報タグ付きコーパス(110万語)を用いて解析実験を行ったところ,YamCha,MOZそれぞれの解析精度は92%,89%となった.