- 著者
-
池田 和史
柳原 正
服部 元
松本 一則
小野 智弘
- 出版者
- 情報処理学会
- 雑誌
- 研究報告データベースシステム(DBS) (ISSN:18840930)
- 巻号頁・発行日
- vol.2010, no.39, pp.1-8, 2010-11-05
評判解析や文書の要約、検索などを高精度に行うために、係り受け解析や格解析が用いられるが、ブログや電子掲示板上の文書を対象とする場合、口語的な記述が多数見られるため、十分な解析精度が得られないことが課題となる。本稿では、口語的な記述に頻繁に見られる助詞落ち表現が解析精度低下の原因の1つであることに着目し、助詞落ちを自動的に推定し、欠落した助詞を補完することで解析精度を向上する手法を提案する。提案手法では、新聞などの助詞落ちの少ない正規の文書から意図的に助詞落ちを発生させた文書を正例、助詞落ちを発生させていない文書を負例として識別器を学習させ、解析対象である口語文書の助詞落ち箇所を推定する。加えて、推定した助詞落ち箇所の前後の単語をキーとして新聞文書を検索することで、適切な助詞を自動的に補完する。性能評価実験では、Webから収集したブログ文書に対して、人手により助詞落ち箇所と補完すべき助詞を付与し、提案手法における助詞落ち推定精度および補完精度の評価を行った。加えて、助詞を補完することによる係り受け解析精度の向上についても評価した。In this paper, we propose algorithms for reducing the errors of the dependency analysis on colloquial style sentences by complementing the omission of postpositions which makes dependency analysis errors. In our algorithms, the omission of postpositions is detected by a classifier which is trained by the features extracted from formally written documents such as newspaper sentences. As positive examples of the classifier, we automatically omit the postpositions from newspaper sentences, and as negative examples, we used the newspaper sentences as they are. After estimating the omission of the postpositions, complementation candidates of the omitted postpositions are automatically retrieved from newspapers. In the experimental evaluations, we collect blog documents which contain colloquial style sentences and manually labeled the omitted postpositions on them. We evaluated the estimation accuracy, complementation accuracy, and improvement of the dependency analysis accuracy.