著者
本多 克宏 松井 智宏 野津 亮 市橋 秀友
出版者
日本知能情報ファジィ学会
雑誌
日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集 第25回ファジィ システム シンポジウム
巻号頁・発行日
pp.147, 2009 (Released:2009-12-15)

テキスト文書の分類は電子メール自動選別や特許検索などの基盤技術として重要である.本研究では,ファジィ主成分分析に基づくロバストなk-Means法により,ノイズとみなされる文書の影響を除去しながら,関連性の強い文書からなる文書クラスターを抽出する.頻出単語のtf-idf値に基づくテキスト文書の数値化の後,ファジィ主成分分析の応用により文書間の結合行列を作成し,各文書の重要度(ノイズではない度合い)を考慮しながら行列の並べ替えを行うことで,クラスター構造を視覚的にとらえる.