著者
馬塲康夫 新里圭司 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.4, pp.67-74, 2008-01-22
被引用文献数
3

本稿では,検索エンジン基盤TSUBAKIを使って検索されたウェブページを,ページ中の複合名詞に注目して自動的にクラスタリングするシステムについて述べる.検索エンジン基盤TSUBAKI とは 日本語ウェブページ1億件を対象にした研究用途に主眼をおいた検索エンジンである.本クラスタリングシステムは,このTSUBAKIと連係することで,数千から数万件のウェブページを分類することが可能であり,さらに,豊富な言語情報を利用した高精度な複合名詞抽出を行うことが可能である.簡単な評価実験の結果,本システムを用いることでTSUBAKIの検索結果中で下位に埋もれているウェブページに対し効率よくアクセスできること,さらには,抽出した複合名詞が有用な情報へアクセスする際に有効であることがわかった.This paper describes a system that organizes a large number of web pages retrieved from the search engine TSUBAKI into clusters according to compound nouns extracted from the pages. TSUBAKI is a search engine infrastructure that can retrieve pages from 100 million web pages. Our clustering system deeply cooperates with TSUBAKI. This enables the system to generate clusters from several thousand web pages, and to give elaborate labels to the clusters. Experimental results showed that our system users can efficiently access low-ranked web pages in a search result obtained from TSUBAKI, and that generated labels navigate the users to information that they want.

言及状況

はてなブックマーク (1 users, 2 posts)

収集済み URL リスト