著者
内元 清貴 関根 聡 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.9, pp.3397-3407, 1999-09-15
被引用文献数
21 22

本論文ではME(最大エントロピー法)に基づくモデルを利用した統計的日本語係り受け解析手法について述べる. 一文全体の係り受け確率は 一文中のそれぞれの係り受けの確率の積から求められると仮定し それぞれの係り受けの確率はMEによって学習した係り受け確率モデルから計算する. この確率モデルは 学習コーパスから得られる情報を基に 2つの文節が係り受け関係にあるか否かを予測するのに有効な素性を学習することによって得られる. 我々が素性として利用する情報は 2つの文節あるいはその文節間に観測される情報 たとえば 文節中の表層文字列 品詞 活用形 括弧や句読点の有無 文節間距離およびそれらの組合せなどである. 本論文では 我々が用いた素性のそれぞれを削除したときの実験結果を示し どの素性がどの程度係り受け解析の精度向上に貢献するかについて考察する. また 学習コーパスの量と解析精度の関係についても考察する. 我々の手法による係り受けの正解率は 一文全体や係り受けを文末から文頭へ向かって決定的に解析した場合 京大コーパスを使用した実験で87.1%と高い精度を示している.This paper describes an analysis of the dependency structure in Japanese based on the maximum entropy models. Japanese dependency structure is usually represented by the relationships between phrasal units called bunsetsu. We assume that the overall dependencies in a sentence can be determined based on the product of the probabilities of all dependencies in a sentence. The probabilities of dependencies between bunsetsus are estimated by a statistical dependency model learned within a maximum entropy framework. This model can be created by learning the features that are useful for predicting the dependency between bunsetsus from the training corpus. We are using information about a bunsetsu itself as features, such as character strings, parts of speech, and inflection types. We are also using information between two bunsetsus as features, such as the existence of brackets or punctuation and the distance between bunsetsus. We compare the performance of our method with and without each feature and discuss the contribution of each feature. And we discuss the effect of the size of the training corpus on the performance of our method. The accuracy of our method for obtaining the dependency of bunsetsus is 87.1% using the Kyoto University corpus when we parse a sentence deterministically from its end to the beginning.

言及状況

はてなブックマーク (1 users, 1 posts)

Twitter (2 users, 2 posts, 0 favorites)

収集済み URL リスト