著者
長谷川 隆明 高木 伸一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.10, pp.3694-3705, 1999-10-15
被引用文献数
7 10

インターネットの普及にともない,電子メールはコミュニケーションの主要な手段となった.一方,Personal Information Manager (PIM)ソフトウェアの普及にともない,個人情報を計算機で管理するユーザが増えている.ユーザの個人情報として,アポイントメントの日時や場所等のスケジュールや,期限をともなう電子メールの返信等のToDoがあげられる.しかしながら,電子メールにより伝達されるスケジュールやToDoに関する情報の管理は,これらの情報を含む文書の整理やPIMソフトウェアとの連携の際に,電子メールを受信するユーザの人手を必要としていた.本稿では,ユーザが受信した電子メール文書からユーザに伝達されるスケジュールとToDoの情報を抽出する手法を提案する.電子メール文書は,任意の目的への使用と自由な形式による情報伝達のため,文書構造や言語表現が一様ではない.本手法の特徴は,スケジュールやToDoを含む電子メール文書の構造と言語の特徴に着目したレイアウト情報とパターンマッチングを用いた,文書構造の認識と情報抽出および情報の関連付けである.電子メールの実文書を対象とした抽出実験により,電子メールのフィルタリングやPIMソフトウェアへの入力等の実用に耐えうる高い精度で,スケジュールとToDoを抽出できることを示す.As the Internet has become popular,e-mail is now an important means of communication.On the other hand,as the Personal Information Managers (PIM) applications have come into wide use recently,many users manage their schedules,such as event date and event location,and to-do items,such as answers to e-mail messages from someone by the appointed time,with their computers.However,a problem is that e-mail receivers cannot easily sort out messages with these information from many incoming messages and build up a close connection with the receivers'PIMs.Therefore,our goal is extracting these information from the e-mail messages users receive.E-mail is open to any purpose and any format.So these information is not formalized,and message structure and language expression are not uniform.We reveal the characteristics of the structure and language used in e-mail messages and propose a way to identify the structure and extract information by using layout information and pattern matching and relate matched partial information with components of these information.Extraction evaluations demonstrate high recall and precision.Our proposal can be put to practical use,such as filtering messages and inputting the information to PIMs.
著者
長谷川 隆明 高木 伸一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.1, pp.73-80, 1998-01-19
被引用文献数
15

一度に多数の人に情報を伝達できる電子メールは、送信する側にとって都合が良い。しかし受信する側では、人手を介さずに情報を抽出して再利用することができないという問題がある。本稿では、電子メールを介したコミュニケーションにおいて用いられる言語の特徴を分析し、それに基いて構成したパターンを用いたパターンマッチングによって、電子メールからイベントの開催日時や開催場所、期限付きの返信依頼等のスケジュール情報を抽出する方法を提案する。任意の電子メールを対象として、スケジュール情報の抽出を行った実験の結果、十分に実用に耐え得る程度の高い精度が得られたことを報告する。E-mail is convenient because senders can communicate information to many people at one time. A problem is that receivers cannot extract and process the information within the e-mail automatically. We analyze the characteristics of the language used in e-mails and propose a way to extract schedule information, such as event date, event location, and RSVP date, from the text of e-mails by using pattern matching. Experiments using actual e-mails confirm the accuracy of our proposal; schedule information can be extracted from any e-mail with practical levels of performance.
著者
奥 雅博 藤岡 健吾 浅野 久子 高木 伸一郎
雑誌
全国大会講演論文集
巻号頁・発行日
vol.55, pp.74-75, 1997-09-24

我々はプッシュボタン(PB)信号送出可能な電話機を入力端末とし利用できるPB入力型電話番号検索実験システムの開発を進めている[2][4]。このシステムは、家庭やオフィスに普及しているPB信号送出可能な電話機を用いて住所や名前の入力を可能とする日本語入力方式(以下、PB入力方式)を採用している。PB入力方式は、図1に示すようにlつのPBボタンに複数のかな文字を対応させ、1押下で1かな文字を入力する方式である。従って、1押下ごとを見るとかな文字レベルで複数の候補が存在することになる(例えば、"1"の押下は"あ"~"お"の5つの文字のいずれかを入力したことになる)。この曖味さを解消する過程において姓名の漢字までを特定しなけれぱならない場面が生じる。PB入力型電話番号検索実験システムでは、同音異字の姓名候補が得られた場合に、この姓名候補に対する漢字説明文を利用者に音声で流すことによって、利用者の求める漢字を持つ姓名を特定する。このとき、利用者への情報伝達は音声のみで行われるので、漢字説明文には「耳で聞いて容易に理解できる」ことが要求される。そこで、2節で述べる方法で生成した漢字説明文に対して、聞いて理解できるか否かという観点から評価実験を行った。