著者
山崎 啓介 張諾 渡辺 俊典 古賀 久志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.35-40, 2007-09-25

高次元特徴空間を用いるテキスト分類等において不必要な次元軸を排除することは計算量などの面から重要な問題である.この問題を解決するためには不要と考えられる次元を見出し,類性能を保つ範囲でその次元を削除していくことを繰り返せば良い.本稿では,まずテキストをその圧縮率ベクトルに着目して特徴付ける方式を示し,そこでの次元縮小法と次元縮小に必要なパラメータ設定を支援する指標関数を提案する.指標関数を参考にしながら対話的に次元縮小を行うことで,分類精度を保ったまま約 50 %の次元縮小が可能となった.When text classification is implemented in high-dimension space, removing unnecessary dimensions becomes important to reduce computation cost. This problem can be solved by finding out unnecessary dimensions and removing them , keeping the classification power of the space. In this paper, we express texts by compression ratio vectors. After introducing it, we propose an interactive dimension reduction method with an index function. The index function is used to judge whether reduction should be continued or not. By removing unnecessary dimensions by using the interactive processing , we clould achieve 50% dimension reduction while keeping the classification accuracy of the space.
著者
山崎 啓介 渡辺 澄夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NC, ニューロコンピューティング (ISSN:09135685)
巻号頁・発行日
vol.100, no.466, pp.23-30, 2000-11-17
被引用文献数
7

多層パーセプトロン、球形基底関数、混合正規分布などの階層構造を持つ推論モデルは、小さなモデルを表現するパラメータの集合が大きなモデルを表現するパラメータの集合の中の特異点を持つ解析的集合(解析関数の零点全体の集合)となり、特異なフィッシャー計量を持つために、学習精度を計算するアルゴリズムが確立されてない。本論では、真の分布を近似的に表現するパラメータ集合が作る体積の指数が学習精度と一致することを証明し、その性質を用いて学習精度を計算する確率的なアルゴリズムを提案し、有効性を実験的に検証する。