著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.3, pp.500-509, 1997-03-15
被引用文献数
11

本論文では日本語形態素解析システムにHMM (Hidden Markov Model)を適応する手法について提案する.日本語では英語と異なり,わかち書きがされていないため,HMMパラメータの初期確率を等確率にした単純な学習では精度が上がらない.よって以下の3つの手法に対するHMM学習の効果について実験を行った.1)初期確率の影響.2)文法制約の導入.3)スムージング.最初の実験から初期確率については少量であっても正確なタグ付きコーパスから獲得することがHMM学習に大きく効果があることを明らかにする.次に文法による制約と確率の再推定におけるスムージング化を行った場合,人手により整備されている日本語形態素解析システムと同等以上の解析精度が得られることを示す.This paper presents a method to apply Hidden Markov Model to parameter learning for Japanese morphological analyzer.When we pursued a simple approach based on HMM for Japanese part-of-speech tagging,it gives a poor performance since word boundaries are not clear in Japanese texts.We especially investigate how the following two information sources and a technique affect the results of the parameter learning:1)The initial value of parameters,i.e.,the initial probabilities,2)grammatical constraints that hold in Japanese sentences independently of any domain and 3)smoothing technique.The first results of the experiments show that initial probabilities learned from correctly tagged corpus affects greatly to the results and that even a small tagged corpus has an enough effect for the initial probabilities.The overall results gives that the total performance of the HMM-based parameter learning outperforms the human developed rule-based Japanese morphological analyzer.

言及状況

はてなブックマーク (3 users, 3 posts)

[研究][形態素解析]

収集済み URL リスト