- 著者
-
山田 一郎
中田 洋平
松井 淳
松本 隆
三浦 菊佳
住吉 英樹
八木 伸行
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2007, no.76, pp.127-132, 2007-07-25
- 参考文献数
- 13
テレビ番組のナレーションでは、「場所紹介」や「人物紹介」など特定の事柄を表現するために同じような言い回しが多用される。このような言い回しを含む文章区間が抽出できれば、対応する番組映像区間の場所紹介や人物紹介といったメタデータを付与することができる。本稿では、番組のクローズドキャプションから特定の事柄を表現する文章に類似した文章を抽出するために、文章間の類似性を評価する手法を提案する。提案手法では文章を構文解析した結果、得られる木構造中の部分木を特徴とし、この特徴をサンプリングして学習する GibbsBoost アルゴリズムを用いて文章間の類似性を評価する。紀行番組のクローズドキャプションを対象として、場所を映像とともに説明する定型表現文章区間にある文章との類似性を評価する実験を行い、提案手法の有効性を確認した。In the closed captions, there are a lot of typical expressions to express specific things, for example, first introduction of a guest in a talk show or explanation of a place in travel program. Such information helps us to put metadata to the corresponding scenes. This paper proposes a method to evaluate the similarity between multiple sentences in order to extract a section in which sentences are similar to the typical expressions expressing specific things. The first step generates tree structures from input section of sentences and extracts subtrees from these tree structures. We use Gibbsboost algorithm which samples these subtrees for features and learns the features to evaluate the similarity. In the experiment of judging whether a section of sentences is similar to the section which explains a place with video targeting closed captions of TV programs concerned with travel, we show the effectiveness of our method.