著者
藤井 洋一 今村 誠 高山 泰博 鈴木 克志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.55, pp.212-213, 1997-09-24
被引用文献数
4

近年大量のテキスト情報がインターネットなどを通じてアクセス可能となるにつれて, 蓄積された文書の分類整理を目的とする文書の自動ファイリングへの要求が高まっている。特に文書内容による自動ファイリングが望まれる。そのための技術としてベクトル空間モデルがある。ベクトル空間モデルによる自動分類は自動学習可能なため, 大量のテキストデータを扱う場合に適している。しかし, ベクトル空間モデルによる分類は単純に単語の出現頻度のみを捕らえて分類先を決定するため分類精度に問題があり, 精度向上のための方式が提案されている。例えば, 河合は単語の意昧属性を用いて分類精度が向上することを示し, 福本はクラスタリングにおいて辞書の語義文を用いた多義解消により精度が向上することを示した。我々は, [1]で指摘されている単語の多義性を共起情報を用いて解消すれば精度向上すると予測した。ただし, 従来の言語学で言われる「多義語」を多義解消するのではなく, 分類が詳細になった場合顕著となる複数分類項目で頻繁に出現する単語に注目した(例えば, 単語「大統領」は<首相<や>大統領選挙>といった複数の分類項目で頻繁に出現する)。この, 複数分類項目で頻繁に出現する単語を「分類多義語」と定義し, 共起情報を用いて「分類多義語」の多義を解消した自動分類を試みた。今回, 本方式で自動分類した結果と, 河合の方式のうち単語のみの情報で自動分類(従来方式と呼ぶ)した結果とを比較し, 本方式が有効な場合を明らかにする。また, 従来方式でも本方式でも解決できない点を分析する。