著者
宮原聡 飯田龍 徳永健伸
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-211, no.2, pp.1-7, 2013-05-16

文を談話単位と呼ばれる基礎的な単位に分割する処理は談話関係解析などの前処理として必須である.ただし,談話単位間に論理的な談話関係を想定する場合には,談話単位に適切な粒度で命題が含まれる必要がある.これは,談話単位間で論理的な談話関係を想起する場合に,一つの談話単位に命題に相当する情報が含まれない場合には,関係を人手で付与する場合に解釈が困難になったり,また一つの談話単位に複数の命題が含まれている場合にはどちらの命題と関連させて関係を付与するのかわからなくなるという問題があるためである.本稿では談話単位の認定基準について議論し,談話単位アノテーションの仕様を設計し,日本語書き言葉均衡コーパス (BCCWJ) の一部に人手でアノテーションを行った.さらに,談話単位の境界にどのような特徴が現れるのかを人手で分析し,それらを手がかりとした自動分割の手法を提案する.この手法の有効性を調査するために BCCWJ にアノテーションした結果を利用した評価実験を行った結果について報告する.