著者
青山 ゆき 東野 純一
出版者
情報処理学会
雑誌
全国大会講演論文集
巻号頁・発行日
vol.49, pp.309-310, 1994-09-20
被引用文献数
1

ワープロ等の上で、旧文書より新文書を編集する際に、新旧文書の差分文字列を機械的に把握することは、編集作業の効率化につながる。しかし、一般にワープロソフトの文書比較機能は、文書の段落、行等のある程度の文字列のまとまりで比較しており、頻繁に使用される単語を置換した場合などでは差分箇所を把握し難い。そこで、単語を単位とした差分を抽出することが適切であるが、日本語文書の単語分割処理の計算量は大きく、単語単位の差分を迅速に抽出することは困難であった。本稿では旧文書のみ単語分割し、分割されていない新文書との差分を抽出する〔単語一文字列〕間差分抽出方式を提案する。これにより、差分抽出時に単語分割することなく、迅速に単語単位の差分を抽出できる。また、従来の2種類の差分抽出手法を〔単語一文字列〕間に拡張した方式を組み合わせて、高速に差分抽出する手法ついて述ベる。