著者
山本 悠二 増山 繁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.113, pp.15-22, 2007-11-19
被引用文献数
1 2

本稿では,係り先候補の相対的な距離を反映した統計的日本語係り受け解析手法を提案する.統計的係り受け解析手法は,文節間の係りやすさを訓練データから推定する.その際,従来手法では,文節間の距離はいくつかのカテゴリに分けられ,推定に用いられる素性として明示的に与えられる.しかし,複数の文節間候補が同一の距離カテゴリに属する場合,距離による弁別ができないため,最尤の係り先を決定することが困難である場合が多い.そこで提案モデルでは,文節候補集合中の二つの文節候補を逐次的に取り出し,どちらが係り元に近いかを明示させて係りやすさの推定を行う.京都大学コーパスを用いて実験を行った結果,係り受け正解率 91.60 %,文正解率 56.33 % となり,ベースライン手法と比べて有意に改善していることが確認された.We propose a novel method for statistical Japanese dependency analysis, which reflects relative distances among modifee candidates. Statistical Japanese dependency analizers estimate a dependency likelihood between a pair of bunsetsu chunks from training dataset. In conventional approaches, distances between pairs of bunsetsu chunks are divided into some feature categories, and the categories are embedded into training feature set explicitly. However, modifee candidates that belong to the same distance category, are possibly hard to be selected the most likely one, since they can not be distinguished by their distance categories. The proposed method selects two modifee candidates from all candidates sequentially. Each of the two modifee candidates and its modifier estimate the dependency likelihood after the modifee candidate appends extra information whether it is nearer from its modifier. The experimental results using Kyoto University Corpus achieved a dependency accuracy of 91.60% and a sentence accuracy of 56.33% respectively. We confirmed that the proposed method improved both dependency and sentence accuracy significantly, compared with the base-line method.
著者
山本 悠二 増山 繁
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.7, pp.1-8, 2010-09-09

日本語係り受け解析の手法は大きく分けて,1. 決定的な解析方法と,2. 係り先候補の確信度に基づく解析方法がある.前者は係り先候補間の比較が行えないことから,特に長距離依存の係り先を同定するときに誤りを生じやすいという傾向がある.また,後者は係り先候補集合のすべての要素を探索するため,計算時間の点で問題がある.提案手法では,係り先候補の確信度に基づく解析方法での解析時間を減らすために,決定的な解析が容易な文節について先に係り先を定めた後に,相対的な比較による係り先の同定する方法を示す.京都テキストコーパス 4.0 を用いて提案手法を評価したところ,係り先候補の確信度に基づく解析方法の 1 つである相対モデルと比較してほぼ同等の解析性能を持ち,かつ,実行時間が 2.4 倍程度高速であることが確認された.Japanese dependency parsers fall into two main methods, 1) deterministic parsing and 2) parsing based on dependency certainties among modifee candidates. The former methods tend to make errors especially for identifying long-distance dependencies because these methods do not opt the candidate by comparing candidates. On the other hand, the latter methods have difficulty with their parsing speed due to searching the most preferable candidate from all modifee candidates. The proposed method identifies easily-analyzable dependencies by deterministic parsing and identifies the rest dependencies by parsing based on dependency certainties among modifee candidates later. Experiments using the Kyoto Text Corpus show that the proposed method runs 2.4 times faster than the relative-model parser while the dependency accuracy of the proposed method is nearly comparable with the relative-model's.
著者
松田 耕史 山本 悠二 酒井 浩之 増山 繁
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.105, no.595, pp.13-18, 2006-01-27

Web上の情報量の増加とWeblogなどの簡易な情報発信手段の普及によって、Web上のリンクを単に「リンク先ページへの信頼」と解釈することはできなくなってきた。Web上のリンクに込められた感情を知ることによって、より密に連携したWebコミュニティを発見することが可能になると考えられる。そこで本研究では、Weblog内のリンクに対して、教師付き学習によって感情スコアを推定することを試みた。肯定的文書、否定的文書間の表現の偏りや、Weblog特有の文書構造を考慮した結果、ピアソンの相関係数で0.45程度と、かなりの相関をもって推測可能であることがわかった。