著者
宮原聡 飯田龍 徳永健伸
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-211, no.2, pp.1-7, 2013-05-16

文を談話単位と呼ばれる基礎的な単位に分割する処理は談話関係解析などの前処理として必須である.ただし,談話単位間に論理的な談話関係を想定する場合には,談話単位に適切な粒度で命題が含まれる必要がある.これは,談話単位間で論理的な談話関係を想起する場合に,一つの談話単位に命題に相当する情報が含まれない場合には,関係を人手で付与する場合に解釈が困難になったり,また一つの談話単位に複数の命題が含まれている場合にはどちらの命題と関連させて関係を付与するのかわからなくなるという問題があるためである.本稿では談話単位の認定基準について議論し,談話単位アノテーションの仕様を設計し,日本語書き言葉均衡コーパス (BCCWJ) の一部に人手でアノテーションを行った.さらに,談話単位の境界にどのような特徴が現れるのかを人手で分析し,それらを手がかりとした自動分割の手法を提案する.この手法の有効性を調査するために BCCWJ にアノテーションした結果を利用した評価実験を行った結果について報告する.
著者
山田一郎 三浦菊佳 住吉英樹 八木伸行 奥村学 徳永健伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.82, pp.25-30, 2006-07-27
参考文献数
9
被引用文献数
2

テレビ番組のナレーションでは、「場所紹介」や「人物紹介」など特定の事柄を表現するために同じような言い回しが多用される。このような言い回しを含む文章区間が抽出できれば、対応する番組映像区間の場所紹介や人物紹介といったメタデータを付与することができる。そこで本稿では、番組のクローズドキャプションを対象として定型表現を含む文章区間を抽出する手法を提案する。提案手法では、複数文のテキストデータから木構造を生成して、木構造間の類似性を木構造に含まれる部分木の類似度により評価する。この結果を弱学習器としたAdaBoostアルゴリズムにより学習を行い定型表現か否かの判定を行う。紀行番組のクローズドキャプションを対象として、場所を映像とともに説明する定型表現文章区間を抽出する実験を行い、提案手法の有効性を確認した。In the closed captions, there are a lot of typical expressions to express specific things, for example, first introduction of a guest in a talk show or explanation of a place in travel program. Such information helps us to put matadata to the corresponding scenes. This paper proposes a method to extract a section including typical expressions. The first step generates tree structures from inputted section of sentences and evalutes the similarities between those tree structures. We use these similarities as weak larners of adaboost algorism to judge whether the section of sentences includes typical expressions or not. In the experiment of detecting sections including typical expressions which explain a place with video targeting closed capitions of TV programs conserned with travel, we show the effectiveness of our method.