- 著者
-
東 藍
浅原 正幸
松本 裕治
- 雑誌
- 情報処理学会研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.2006, no.53(2006-NL-173), pp.67-74, 2006-05-19
本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証した