著者
藤井 洋一 今村 誠 高山 泰博 鈴木 克志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.55, pp.212-213, 1997-09-24
被引用文献数
4

近年大量のテキスト情報がインターネットなどを通じてアクセス可能となるにつれて, 蓄積された文書の分類整理を目的とする文書の自動ファイリングへの要求が高まっている。特に文書内容による自動ファイリングが望まれる。そのための技術としてベクトル空間モデルがある。ベクトル空間モデルによる自動分類は自動学習可能なため, 大量のテキストデータを扱う場合に適している。しかし, ベクトル空間モデルによる分類は単純に単語の出現頻度のみを捕らえて分類先を決定するため分類精度に問題があり, 精度向上のための方式が提案されている。例えば, 河合は単語の意昧属性を用いて分類精度が向上することを示し, 福本はクラスタリングにおいて辞書の語義文を用いた多義解消により精度が向上することを示した。我々は, [1]で指摘されている単語の多義性を共起情報を用いて解消すれば精度向上すると予測した。ただし, 従来の言語学で言われる「多義語」を多義解消するのではなく, 分類が詳細になった場合顕著となる複数分類項目で頻繁に出現する単語に注目した(例えば, 単語「大統領」は<首相<や>大統領選挙>といった複数の分類項目で頻繁に出現する)。この, 複数分類項目で頻繁に出現する単語を「分類多義語」と定義し, 共起情報を用いて「分類多義語」の多義を解消した自動分類を試みた。今回, 本方式で自動分類した結果と, 河合の方式のうち単語のみの情報で自動分類(従来方式と呼ぶ)した結果とを比較し, 本方式が有効な場合を明らかにする。また, 従来方式でも本方式でも解決できない点を分析する。
著者
永井 明人 増塩 智宏 高山 泰博 鈴木 克志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.125-130, 2003-03-06
参考文献数
9
被引用文献数
1

インターネットでは一般からの情報発信が盛んになり、企業や製品に関する消費者の生の声(風評)が広く公開されるようになった。そこで、これらの大量の風評からクレームを抽出して、迅速なクレーム対応を実現する要求が企業において急速に高まっている。こうした要求を背景として、Web上に広がる企業や製品のクレーム情報を抽出して監視するインターネット情報監視システムを試作した。特徴は、(1) 文内の単語共起照合に基づく精密なクレーム抽出、(2) 収集したクレーム情報をマクロに時系列分析して、クレームの急増を検知するトレンド分析、(3) Web全文検索エンジンと掲示板クローラを組合わせた、大量・最新文書の収集、である。本稿では、この試作システムの概要を述べる。This paper describes an internet watching system which enables to extract consumer claims automatically from an internet. Reputation of enterprises or products latent so far is coming to appear and spread fast in an internet because everyone can send and read many messages easily in the internet. Then, it is highly required to find claims for the enterprises in order to cope with the claims quickly in terms of risk management. So we have developed and prototyped the system which is characterized by technologies of automatic claim extraction, trend analysis of claims and collection of numerous and latest documents.