著者
山田一郎 三浦菊佳 住吉英樹 八木伸行 奥村学 徳永健伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.82, pp.25-30, 2006-07-27
参考文献数
9
被引用文献数
2

テレビ番組のナレーションでは、「場所紹介」や「人物紹介」など特定の事柄を表現するために同じような言い回しが多用される。このような言い回しを含む文章区間が抽出できれば、対応する番組映像区間の場所紹介や人物紹介といったメタデータを付与することができる。そこで本稿では、番組のクローズドキャプションを対象として定型表現を含む文章区間を抽出する手法を提案する。提案手法では、複数文のテキストデータから木構造を生成して、木構造間の類似性を木構造に含まれる部分木の類似度により評価する。この結果を弱学習器としたAdaBoostアルゴリズムにより学習を行い定型表現か否かの判定を行う。紀行番組のクローズドキャプションを対象として、場所を映像とともに説明する定型表現文章区間を抽出する実験を行い、提案手法の有効性を確認した。In the closed captions, there are a lot of typical expressions to express specific things, for example, first introduction of a guest in a talk show or explanation of a place in travel program. Such information helps us to put matadata to the corresponding scenes. This paper proposes a method to extract a section including typical expressions. The first step generates tree structures from inputted section of sentences and evalutes the similarities between those tree structures. We use these similarities as weak larners of adaboost algorism to judge whether the section of sentences includes typical expressions or not. In the experiment of detecting sections including typical expressions which explain a place with video targeting closed capitions of TV programs conserned with travel, we show the effectiveness of our method.