- 著者
-
仲尾 由雄
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌データベース(TOD) (ISSN:18827799)
- 巻号頁・発行日
- vol.42, no.10, pp.39-53, 2001-09-15
- 参考文献数
- 17
関連文書の比較作業を支援するには,類似の話題を扱った関連箇所を対比して提示することが有効と考えられる.また,関連箇所が,関連文書中でどのように分布しているかを図示することは,関連文書の対応関係を総合的に理解する助けとなろう.本稿では,このような考えから,文書間をまたがる関連箇所を自動的に抽出する新しい手法を提案する.提案手法は,文書対に共通する話題を検出し,それぞれの話題に対して関連箇所の対を抽出する手法である.この際に,語彙的結束性に基づき認定した話題階層を利用して,様々な粒度の話題間の関連度を求め,比較していることに特徴がある.国会における代表質問と答弁を対象に行った実験では,抽出された関連箇所の組の約8割が正しく同一の話題に対応し,また,新聞に要旨として掲載された内容の約6割は,抽出された関連箇所の対から読み取れることが分かった.This paper presents a novel method for extracting related passages in multiple documents that is intended to be used to help a person who wants to compare the content of multiple documents. The aim of the algorithm is to extract the best matching pair of document portions for each topic commonly included in the documents to be compared. For the documents to be compared, the algorithm first detects individual thematic hierarchies based on lexical cohesion measured by term repetitions. It then compares a pair of thematic hierarchies in terms of various grading topics, and selects closely-related pairs of thematic units. In an experiment using proceedings of interpellations in the National Diet of Japan, the algorithm extracted correct pairs of related passages in a ratio of 80% and identified 60\% of major topics that had been reported in newspaper articles.