- 著者
-
上田 修一
安形 輝
池内 淳
石田 栄美
野末 道子
- 出版者
- 慶應義塾大学
- 雑誌
- 基盤研究(B)
- 巻号頁・発行日
- 2009
研究の目的は,分野を限定せず,日本語及び英語の学術論文への直接的なアクセスを保証し,公開された検索アルゴリズムを用いた学術論文に特化した検索エンジンの構築と評価である。ウェブクローリングを行うために機関リポジトリ収載ファイルを調査し,深層ウェブの存在などウェブ構造を明らかにした。また,日本語および英語で書かれた全分野の学術論文の構成要素と構成を調査し,その結果に基づいて,学術論文の自動判定を行うための判定ルールを構築した。次いでウェブから約300万件の日本語PDFファイルを収集し, Solrによる検索エンジンの構築を行った。既存の検索エンジンと比較評価を行った結果,構築した検索エンジン「アレセイア」は,論文へのアクセスの点で優れており,高い確率で学術論文を自動判定できることが明らかになった。