- 著者
-
山本 悠二
増山 繁
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2007, no.113, pp.15-22, 2007-11-19
- 被引用文献数
-
1
2
本稿では,係り先候補の相対的な距離を反映した統計的日本語係り受け解析手法を提案する.統計的係り受け解析手法は,文節間の係りやすさを訓練データから推定する.その際,従来手法では,文節間の距離はいくつかのカテゴリに分けられ,推定に用いられる素性として明示的に与えられる.しかし,複数の文節間候補が同一の距離カテゴリに属する場合,距離による弁別ができないため,最尤の係り先を決定することが困難である場合が多い.そこで提案モデルでは,文節候補集合中の二つの文節候補を逐次的に取り出し,どちらが係り元に近いかを明示させて係りやすさの推定を行う.京都大学コーパスを用いて実験を行った結果,係り受け正解率 91.60 %,文正解率 56.33 % となり,ベースライン手法と比べて有意に改善していることが確認された.We propose a novel method for statistical Japanese dependency analysis, which reflects relative distances among modifee candidates. Statistical Japanese dependency analizers estimate a dependency likelihood between a pair of bunsetsu chunks from training dataset. In conventional approaches, distances between pairs of bunsetsu chunks are divided into some feature categories, and the categories are embedded into training feature set explicitly. However, modifee candidates that belong to the same distance category, are possibly hard to be selected the most likely one, since they can not be distinguished by their distance categories. The proposed method selects two modifee candidates from all candidates sequentially. Each of the two modifee candidates and its modifier estimate the dependency likelihood after the modifee candidate appends extra information whether it is nearer from its modifier. The experimental results using Kyoto University Corpus achieved a dependency accuracy of 91.60% and a sentence accuracy of 56.33% respectively. We confirmed that the proposed method improved both dependency and sentence accuracy significantly, compared with the base-line method.