- 著者
-
中川 哲治
工藤 拓
松本 裕治
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2001, no.9, pp.77-82, 2001-01-25
- 被引用文献数
-
2
品詞タグ付けにおいて,辞書に存在する語と比較して未知語に対する解析精度は低く,品詞タグ付けの全体の性能を左右する要因となる。本稿では,英語における未知語の品詞をSupport Vector Machineを用いて推定する手法を提案する。単語の部分文字列やコンテキストを素性として,高い精度で品詞を推定することができた。さらに同じ枠組みで,SVMを用いて品詞のタグ付けを行ったところ,100 000トークンの訓練データによる学習の結果,95.9%という従来手法以上の精度が得られた。In part-of-speech tagging, the accuracy for unknown words is lower than for known words. In consideration of high accuracy rate of up-to-date statistical POS taggers, unknown words account for non-negligible cause of errors. This paper describes POS estimation for unknown words using Support Vector Machines. We achieved high accuracy of POS tag estimation using substrings and surrounding contexts as feature. Furthermore, we apply this method to a practical POS tagger, and achieved the accuracy of 95.9%, higher than conventional approaches.