著者
木村 洋章 渡辺 俊典 古賀 久志 張諾
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.94, pp.65-70, 2006-09-12
参考文献数
11

著者らは情報の圧縮性に着目した新たなマルチメディアデータ解析手法の研究を進めている.PRDC(Pattern Representation Scheme using Data Compression)[1]と呼ぶこの新概念の中では,二つのデータX,Yの類似度を,それらを圧縮辞書D1,D2,…,Dnで圧縮した時の圧縮率ベクトルの類似度で判断する.本論文ではPRDCを用いた新文書検索システムの可能性を探る.部分的ではあるが,文書分類,公知/特異句抽出,文書要約,など将来の高自立・適応文書検索システムの実現に重要な機能を実現できる可能性を提示する.キーワード 文書解析,情報検索,要約,新句抽出,データ圧縮We have been studying a new multimedia data analysis scheme based on the concept of compressibility. In this new concept of PRDC(Pattern Representation Scheme using Data Compression)[1], we consider two data, let them X and Y, are similar if their compressibility vectors under a set of compression dictionaries D1, D2, ..., Dn are similar. Here we investigate the possibility of new document retrieval system using the PRDC. We prove that PRDC has possibilities to solve several fundamental problems including, document classification, common/distinguished phrase extraction, and summary, that should be realized in the future highly autonomous and adaptive document retrieval systems.Key words Document analysis, Retrieval, Summarization, New phrase detection, Data compression