- 著者
-
藤本 典幸
萩原 兼一
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
- 巻号頁・発行日
- vol.105, no.173, pp.61-66, 2005-07-08
- 被引用文献数
-
3
個人ユーザを対象に, 数Mbps程度のインターネット回線1本とコモディティPC1台のみを用いて, ウェブページ上に掲載されているマルチメディアデータをキーワード検索するシステムの設計と実装, および評価結果について述べる.サポートされるデータ形式は, 画像(JPEG, GIF, PNG), 動画(MPEG, FLASH, RealMediaなど), 音声(MP3, wave, MIDIなど), PDFファイルなど, HTMLのIMGタグ, Aタグ, OBJECTタグ, EMBEDタグで記述できるもの全てである.本システムはユーザがクエリーと収集時間を入力した後に, Google Web APIを用いて取得したウェブページ群を種ページとして, 指定された時間の間, トピック主導型クローリングを行い, 収集したHTMLのテキストベースの解析を行う(マルチメディアデータの内容解析は行わない).クローリングアルゴリズム, スコアリングアルゴリズムを工夫し, マルチスレッドプログラミングを行うことにより, 本システムは, 各ウェブサイトにかかる負荷を考慮しつつ, ユーザのクエリー入力後30秒間で150ページ前後のウェブページをクローリング, 解析し, 300個程度のマルティメディアデータ(多くは画像)をスコア順に出力することができる.