著者
伊藤 雅弘 中山 浩太郎 原 隆浩 西尾 章治郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.20, pp.39-49, 2007-12-15
被引用文献数
2

近年,知識処理の有用なコーパスとして,ユーザ同士が協調してコンテンツを編集するWeb事典である「Wikipedia」に多大な注目が集まっている.筆者らはこれまでの研究において,Wikipediaに対してリンク構造を解析することで精度の良いシソーラス辞書が構築できることを示してきた.しかし,膨大な記事数を持つWikipediaを解析するためには,高い精度を保ったままスケーラビリティのさらなる向上が技術的な課題であった.そこで,本研究ではリンクの共起性解析に着目し,スケーラビリティの高いシソーラス辞書構築手法を提案する.提案手法の性能評価のために行った実験の結果,共起性解析を用いた手法は従来手法よりも少ない計算時間で,高精度なシソーラス辞書を構築できることを確認した.さらに,共起性解析とtfidfを融合させることによって,より高い精度が実現できることを確認した.Wikipedia, a huge scale Web based encyclopedia, attracts great attention as a valuable corpus for knowledge extraction. We have already proved how effective it is to construct a Web thesaurus. However, we still need high scalability methods to analyze the huge amount of Web pages and hyper links among articles in the encyclopedias. In this paper, we propose a scalable Web thesaurus construction method from Wikipedia by using link co-occurrence. Experimental results show that the proposed method based on link co-occurrence analysis was better on scalability and accuracy than previous methods. Moreover, the method combining tfidf with link co-occurrence analysis brought higher precision.

言及状況

はてなブックマーク (3 users, 3 posts)

[wikipedia][論文]

Twitter (1 users, 1 posts, 0 favorites)

RT @twitt_bot : CiNii - Wikipediaのリンク共起性解析によるシソーラス辞書構築 http://ci.nii.ac.jp/naid/110006533400

収集済み URL リスト