著者
木村 洋章 渡辺 俊典 古賀 久志 張諾
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.94, pp.65-70, 2006-09-12
参考文献数
11

著者らは情報の圧縮性に着目した新たなマルチメディアデータ解析手法の研究を進めている.PRDC(Pattern Representation Scheme using Data Compression)[1]と呼ぶこの新概念の中では,二つのデータX,Yの類似度を,それらを圧縮辞書D1,D2,…,Dnで圧縮した時の圧縮率ベクトルの類似度で判断する.本論文ではPRDCを用いた新文書検索システムの可能性を探る.部分的ではあるが,文書分類,公知/特異句抽出,文書要約,など将来の高自立・適応文書検索システムの実現に重要な機能を実現できる可能性を提示する.キーワード 文書解析,情報検索,要約,新句抽出,データ圧縮We have been studying a new multimedia data analysis scheme based on the concept of compressibility. In this new concept of PRDC(Pattern Representation Scheme using Data Compression)[1], we consider two data, let them X and Y, are similar if their compressibility vectors under a set of compression dictionaries D1, D2, ..., Dn are similar. Here we investigate the possibility of new document retrieval system using the PRDC. We prove that PRDC has possibilities to solve several fundamental problems including, document classification, common/distinguished phrase extraction, and summary, that should be realized in the future highly autonomous and adaptive document retrieval systems.Key words Document analysis, Retrieval, Summarization, New phrase detection, Data compression
著者
山崎 啓介 張諾 渡辺 俊典 古賀 久志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.35-40, 2007-09-25

高次元特徴空間を用いるテキスト分類等において不必要な次元軸を排除することは計算量などの面から重要な問題である.この問題を解決するためには不要と考えられる次元を見出し,類性能を保つ範囲でその次元を削除していくことを繰り返せば良い.本稿では,まずテキストをその圧縮率ベクトルに着目して特徴付ける方式を示し,そこでの次元縮小法と次元縮小に必要なパラメータ設定を支援する指標関数を提案する.指標関数を参考にしながら対話的に次元縮小を行うことで,分類精度を保ったまま約 50 %の次元縮小が可能となった.When text classification is implemented in high-dimension space, removing unnecessary dimensions becomes important to reduce computation cost. This problem can be solved by finding out unnecessary dimensions and removing them , keeping the classification power of the space. In this paper, we express texts by compression ratio vectors. After introducing it, we propose an interactive dimension reduction method with an index function. The index function is used to judge whether reduction should be continued or not. By removing unnecessary dimensions by using the interactive processing , we clould achieve 50% dimension reduction while keeping the classification accuracy of the space.