著者
藤井 洋一 今村 誠 高山 泰博 鈴木 克志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.55, pp.212-213, 1997-09-24
被引用文献数
4

近年大量のテキスト情報がインターネットなどを通じてアクセス可能となるにつれて, 蓄積された文書の分類整理を目的とする文書の自動ファイリングへの要求が高まっている。特に文書内容による自動ファイリングが望まれる。そのための技術としてベクトル空間モデルがある。ベクトル空間モデルによる自動分類は自動学習可能なため, 大量のテキストデータを扱う場合に適している。しかし, ベクトル空間モデルによる分類は単純に単語の出現頻度のみを捕らえて分類先を決定するため分類精度に問題があり, 精度向上のための方式が提案されている。例えば, 河合は単語の意昧属性を用いて分類精度が向上することを示し, 福本はクラスタリングにおいて辞書の語義文を用いた多義解消により精度が向上することを示した。我々は, [1]で指摘されている単語の多義性を共起情報を用いて解消すれば精度向上すると予測した。ただし, 従来の言語学で言われる「多義語」を多義解消するのではなく, 分類が詳細になった場合顕著となる複数分類項目で頻繁に出現する単語に注目した(例えば, 単語「大統領」は<首相<や>大統領選挙>といった複数の分類項目で頻繁に出現する)。この, 複数分類項目で頻繁に出現する単語を「分類多義語」と定義し, 共起情報を用いて「分類多義語」の多義を解消した自動分類を試みた。今回, 本方式で自動分類した結果と, 河合の方式のうち単語のみの情報で自動分類(従来方式と呼ぶ)した結果とを比較し, 本方式が有効な場合を明らかにする。また, 従来方式でも本方式でも解決できない点を分析する。
著者
今村 誠 鈴木 克志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告デジタルドキュメント(DD) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.81, pp.1-8, 2001-07-27
参考文献数
7
被引用文献数
1

行政ではXML(eXtensible Markup Language)を用いた電子申請のインフラ整備を進めている.そしてこのインフラ整備では,申請書本文とその申請内容を補足説明する添付文書からなる複数文書一式が,申請書の記載要領に相当する文書内容に関する規約(文書規約)に従っていることを保証する仕組みが重要になる.しかし,XML Schemaのような既存の標準では,要素間や複数文書間にわたる文書内容制約を表現できないという問題があった.そこで,複数XML文書一式に対する文書規約を表現・検証する仕組みの提供を目的として,文書規約記述言語DRDL(Document Rules Description Language)と,その処理系(DRDLプロセッサ)を開発している.DRDLの特徴は,以下の2点である.(1)Xpath(XML Path Language)を基本要素として,等式,限量子,および論理演算子を用いて構成される論理式で文書規約を表現することにより,複数文書一式に対する内容間制約を簡潔に記述できる.(2)同一文書規約を,文書内容検証用と文書変換用の双方の規約として解釈できるようにすることにより,申請様式の電子化や改訂に伴う内容検証機能や変換機能の開発効率を向上させることができる.Japanese Administration has developed XML-based Electronic Application infrastructure. In this development, it is important to establish a method to validate whether a set of documents consisting of a body document and attached documents satisfies document rules in application manuals. But XML Schema, a standard to describe document rules, can not represents a constraint among contents in multiple XML documents. This paper presents Document Rules Description Language (DRDL) and its processor (DRDL Processor) in order to provide a framework for description and validation of constraints among contents in multiple XML documents. The features of DRDL are the following. (1)DRDL can concisely describe constraints among contents in multiple XML documents with logical formula which consist of Xpath (XML Path Language), equality, quantifiers, and logical operators. (2)We can develop validation functions and transformation functions in application forms efficiently, as a DRDL processor can interpret one document rule as both validation procedure and transformation procedure.
著者
永井 明人 増塩 智宏 高山 泰博 鈴木 克志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.125-130, 2003-03-06
参考文献数
9
被引用文献数
1

インターネットでは一般からの情報発信が盛んになり、企業や製品に関する消費者の生の声(風評)が広く公開されるようになった。そこで、これらの大量の風評からクレームを抽出して、迅速なクレーム対応を実現する要求が企業において急速に高まっている。こうした要求を背景として、Web上に広がる企業や製品のクレーム情報を抽出して監視するインターネット情報監視システムを試作した。特徴は、(1) 文内の単語共起照合に基づく精密なクレーム抽出、(2) 収集したクレーム情報をマクロに時系列分析して、クレームの急増を検知するトレンド分析、(3) Web全文検索エンジンと掲示板クローラを組合わせた、大量・最新文書の収集、である。本稿では、この試作システムの概要を述べる。This paper describes an internet watching system which enables to extract consumer claims automatically from an internet. Reputation of enterprises or products latent so far is coming to appear and spread fast in an internet because everyone can send and read many messages easily in the internet. Then, it is highly required to find claims for the enterprises in order to cope with the claims quickly in terms of risk management. So we have developed and prototyped the system which is characterized by technologies of automatic claim extraction, trend analysis of claims and collection of numerous and latest documents.