- 著者
-
春野 雅彦
白井 諭
大山 芳史
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.39, no.12, pp.3177-3186, 1998-12-15
- 被引用文献数
-
15
本稿ではコーパスから決定木を構成し日本語係受け解析に適用する手法を提案する.一般に日本語係受け解析では2文節間の係りやすさを数値で表現し,その数値を1文全体で最適化することによって係受け関係を決定する.したがって,日本語係受け解析の問題は2文節間の係りやすさを正確に計算することに帰着される.提案手法の主旨は2文節の係りやすさの評価と必要な属性の自動選択に決定木を利用するということである.既存の統計的依存解析の研究では,文節の種類によらず,あらかじめ決められた属性すべてによる条件付き確率で係りやすさを評価する.一方,決定木による手法では,係受け関係にある文節とそうでない文節を弁別する属性が,2文節の種類に応じて重要な順に必要な数だけ選択される.したがって,大量の属性をシステムに与えても必要がなければ利用されず,データスパースネスの問題を避けることが可能となる.これによって構文解析の精度向上に効果が期待される属性はすべて採用することができる.EDRコーパスを用いて手案手法の評価実験を行ったところ,既存の統計的係受け解析手法を4%上回る解析精度が得られた.さらに本実験では,1.決定木の枝刈りと解析精度の関係,2.データ量と解析精度の関係,3.種々の属性の解析精度に与える影響,4.文節の主辞に関して頻出単語の表層,分類語彙表カテゴリを属性に加えた場合の影響,の各項目について検討を行った.その結果,1.少なめの枝刈りで解析精度が向上する,2.係受け解析の学習に必要な文数はおよそ2万文である,3.属性のうち特に有効なのは,係り側文節の形と文節間距離である,4.主辞の語彙情報を使っても必ずしも解析精度が上がるわけではない,の4点で明らかとなった.これらの結果は今後日本語係受け解析システムや日本語解析済みコーパスを構築する際に一定の指針となりうる.This paper describes a Japanese dependency parser that uses a decision tree.Jananese dependency parser generally prepares a modification matrix,each value of which represents how a phrase tends to modify the other.The parser determines the best dependency structure by totally optimizing the values in a sentence under several constraints.Therefore,our main task is to precisely evaluate the modification matrix from corpora.Conventional stochastic dependency parsers define a set of learning features and apply all of them regardless of phrase types.On the contrary,our decision tree based method automatically selects significant and enough number of features according to the phrase types.We can make use of large number of features that may have contrivution to parsing accuracy.The proposed method was tested with EDR corpus and yielded significantly better (4%) performance over a conventional statistical dependency parser.In addition,we tested the following 4 properties of the system;1.relation between parsing accuracy and pruning of decision tree,2.relation between parsing accuracy and amount of training data,3.relation between types of features and parsing accuracy and 4.parsing accuracy when additionally using frequent open class words and thesaurus categories.The results were 1.weak pruning yielded better performance,2.the decision tree learning for dependency parsing required fifty thousands Japanese sentences,3.the type of modifier and the modification distance are particularly effective for parsing accuracy and 4.open class words and thesaurus categories do always improve the accuracy.These findings may offer the important clues to Japanese parser developments and corpus constructions in the future.