- 著者
-
山田 一郎
鳥澤健太郎
風間 淳一
黒田 航
村田 真樹
ステインデ・サーガ
フランシス ボンド
隅田 飛鳥
橋本 力
- 出版者
- 情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.52, no.12, pp.3435-3447, 2011-12-15
質問応答などの自然言語処理アプリケーションが実用レベルに至るには,計算機で扱うことのできる,世界についての膨大な知識を構築する必要がある.本論文では,そのような知識の筆頭といえる,「サッカー選手/長友佑都」などの語句間の上位下位関係を自動獲得する手法を提案する.提案手法は,Wikipediaから獲得した上位下位関係と,Webテキストから獲得した語句間類似度情報を併用することで,網羅的かつ高精度に上位下位関係を獲得する.評価実験では,提案手法の適合率が,複数のベースライン手法の適合率に比べて,スコア上位10,000ペアでは0.155から0.650の差で,スコア上位100,000ペアでは0.190から0.500の差で上回ることを確認した.また,提案手法の獲得結果の中には,広く用いられている語彙統語パターンによる手法では獲得できない上位下位関係が多く含まれていることを確認した.In order to make natural language processing (NLP) applications such as question answering accurate enough for practical use, it is essential to build a large-scale, computer-tractable semantic knowledge base. In this paper, we target hyponymy relation like "football player/Yuto Nagatomo," which is one of the most important semantic relations for NLP. We propose a new method of large scale hyponymy relation acquisition from Web texts that combines a hyponymy relation database constructed from Wikipedia and the distributional similarity between words calculated from Web texts. Experimental results showed that, in terms of precision, our method outperformed nontrivial baseline methods by 0.155 to 0.650 for the top 10,000 pairs and by 0.190 to 0.500 for the top 100,000 pairs. Furthermore, we confirmed that our method could acquire hyponymy relation pairs that widely-used lexico-syntactic pattern based approaches could not.