- 著者
-
藤本 典幸
萩原 兼一
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
- 巻号頁・発行日
- vol.2005, no.68, pp.659-664, 2005-07-15
個人ユーザを対象に,数Mbps程度のインターネット回線1本とコモディティPC1台のみを用いて,ウェブページ上に掲載されているマルチメディアデータをキーワード検索するシステムの設計と実装,および評価結果について述べる.サポートされるデータ形式は,画像(JPEG GIF PNG),動画(MPEG FLASH RealMediaなど) 音声(MP3 wave MIDIなど) PDFファイルなど,HTMLのIMGタグ,Aタグ,OBJECTタグ,EMBEDタグで記述できるもの全てである.本システムはユーザがクエリーと収集時間を入力した後に,Google Web APIを用いて取得したウェブページ群を種ページとして,指定された時間の間,トピック主導型クローリングを行い,収集したHTMLのテキストベースの解析を行う(マルチメディアデータの内容解析は行わない).クローリングアルゴリズム,スコアリングアルゴリズムを工夫し,マルチスレッドプログラミングを行うことにより,本システムは,各ウェブサイトにかかる負荷を考慮しつつ,ユーザのクエリー入力後 30秒間で150ページ前後のウェブページをクローリング,解析し,300個程度のマルティメディアデータ(多くは画像)をスコア順に出力することができる.This paper describes the design, implementation, and evaluation of a novel Web multimedia search engine software. The hardware resources required by our engine are only one commodity personal computer (PC for short) and only one Internet connection with a few Mbps. For a given query and a given time interval,our engine retrieves Web pages relevant to the query during the time interval. Then, our engine analyzes the collected Web pages and finally enumerates multimedia data in the Web pages in the descending order of score for the query. We evaluated our engine on 2.4GHz Intel Pentium 4 PC with 512MB RAM and 16.66Mbps effective bandwidth to the Internet. Our experiments show that,due to our sophisticated Web crawling algorithm, multimedia data discard algorithm, and multimedia data scoring algorithm, our engine can typically select 273 multimedia data of 395 multimedia data in 206 Web pages in 33.92 seconds.