著者
張玉潔 尾関 和彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.85, pp.1-8, 1997-11-12
被引用文献数
3

従来の文節分割法では,人手で規則を与えていたため,規則全体の一貫性を保持するのが困難であり,また規則の適用順序の定め方に問題があった.ここでは形態素解析された日本語文を,分類木により文節単位に分割する方法を提案する.この方法によれば,分割規則をコーパスから自動的に獲得することができる.また,統計的な側面と論理的な側面から同時に分割規則を捉えることにより,効率の良い規則適用順序が得られる.さらに対象領域や形態素の分類体系などが変更されたときも,学習データを入れ替えるだけで,新しい状況に対応する分割規則を容易に獲得することができる.ATRコーパスとEDRコーパスを用いた実験により,この方法の有効性を確認した.In conventional bunsetsu segmentation methods of Japanese sentences, segmentation rules have been given manually. This causes difficulties in maintaining the consistency of the rules, and in deciding an efficient order of rule application. This paper proposes a method of automatic bunsetsu segmentation using a classification tree, where the knowledge about bunsetsu boundaries can be automatically acquired from a corpus without the need of handwork on rule making. It can also adapt quickly to a new task domain and a new system of morpheme classification. Results of experiments on ATR corpus and EDR corpus show the effectiveness of this method.