著者
上田 修一 安形 輝 池内 淳 石田 栄美 野末 道子
出版者
慶應義塾大学
雑誌
基盤研究(B)
巻号頁・発行日
2009

研究の目的は,分野を限定せず,日本語及び英語の学術論文への直接的なアクセスを保証し,公開された検索アルゴリズムを用いた学術論文に特化した検索エンジンの構築と評価である。ウェブクローリングを行うために機関リポジトリ収載ファイルを調査し,深層ウェブの存在などウェブ構造を明らかにした。また,日本語および英語で書かれた全分野の学術論文の構成要素と構成を調査し,その結果に基づいて,学術論文の自動判定を行うための判定ルールを構築した。次いでウェブから約300万件の日本語PDFファイルを収集し, Solrによる検索エンジンの構築を行った。既存の検索エンジンと比較評価を行った結果,構築した検索エンジン「アレセイア」は,論文へのアクセスの点で優れており,高い確率で学術論文を自動判定できることが明らかになった。
著者
池内 淳 野末 道子 安形 輝 久野 高志 石田 栄美 上田 修一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.51, pp.159-166, 2003-05-22
被引用文献数
1

Webの拡大に伴い、情報検索における、Webページの有用性の識別は重要な問題となっている。本研究では、まず、150万のページ集合から抽出した1 000ページについて、被験者によって、7ポイント・スケールで有用性判定行うとともに、その有用性判定の規準について分析をおこなった。さらに、ページの被リンク数、及び、特徴語を用いたWebページの有用性判定システムを構築し、各々の結果の比較を行った。In information retrieval, the problem of identifying web page usefulness increases its importance with expansion of the Web. In this study, firstly, web page test set(1,000 pages) was extracted from 150 million Japanese pages. Three respondents judged web page usefulness by 7-point scale, and we examined their judging criteria. We developed two type of web page usefulness judging systems by using linked frequency and key-term frequency, and compared each result.