- 著者
-
山田 洋志
福島 俊一
松田 勝志
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
- 巻号頁・発行日
- vol.2000, no.29, pp.143-150, 2000-03-21
- 参考文献数
- 4
- 被引用文献数
-
6
ユーザの目的に応じた情報検索・情報提供を実現するために,ページタイプ分類を利用した情報抽出・分類方式を提案し,試作システムで精度を評価した.本方式では,ページタイプ分類を使用することで,それぞれのページタイプに適した抽出・分類処理を行える.そのため,多くの種類の文書が混在するWebページに対しても必要な情報だけを高い精度で抽出することができる.また,分類結果を表や図を用いてユーザに提示することで特定の目的に応じた情報を提供するサービスを実現できる.試作システムによる求人情報とイベント情報の抽出精度の評価では,記述が比較的一定している勤務地や開催日時などの情報で適合率90%以上を達成した.記述の自由度が高い,求人の応募資格やイベント名では65?75%にとどまっている.検索誤りの主な原因は,情報を判別するキーワードのミスマッチと,表や箇条書きの前後からの抽出の誤りであった.抽出もれの原因としては,表や箇条書きのパターンや情報判別用のキーワードのの不足が主なものであった.This paper describes a novel information extraction method which realizes task oriented information retrieval. This method uses page-type classification method which judges type of Web pages. Introducing the page-type concept, extraction systems can select appropriate algorithm or rules for the target page-type. Hence, extraction performances will be increased. This paper also demonstrates accuracy of extraction. Extraction precisions of work place at help-wanted advertisement and date at event information are 90% and over, since these information are relatively set. Precisions of requirement at help-wanted advertisement and event name at event information are unfortunately between 65% and 75%, because there are many description styles of these information. The causes of the extraction errors is mismatches of keywords and extracting errors from table captions. The extraction omissions are caused by lack of pattern, namely, table, article, keyword and so on.