著者
山田 一郎 鳥澤健太郎 風間 淳一 黒田 航 村田 真樹 ステインデ・サーガ フランシス ボンド 隅田 飛鳥 橋本 力
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3435-3447, 2011-12-15

質問応答などの自然言語処理アプリケーションが実用レベルに至るには,計算機で扱うことのできる,世界についての膨大な知識を構築する必要がある.本論文では,そのような知識の筆頭といえる,「サッカー選手/長友佑都」などの語句間の上位下位関係を自動獲得する手法を提案する.提案手法は,Wikipediaから獲得した上位下位関係と,Webテキストから獲得した語句間類似度情報を併用することで,網羅的かつ高精度に上位下位関係を獲得する.評価実験では,提案手法の適合率が,複数のベースライン手法の適合率に比べて,スコア上位10,000ペアでは0.155から0.650の差で,スコア上位100,000ペアでは0.190から0.500の差で上回ることを確認した.また,提案手法の獲得結果の中には,広く用いられている語彙統語パターンによる手法では獲得できない上位下位関係が多く含まれていることを確認した.In order to make natural language processing (NLP) applications such as question answering accurate enough for practical use, it is essential to build a large-scale, computer-tractable semantic knowledge base. In this paper, we target hyponymy relation like "football player/Yuto Nagatomo," which is one of the most important semantic relations for NLP. We propose a new method of large scale hyponymy relation acquisition from Web texts that combines a hyponymy relation database constructed from Wikipedia and the distributional similarity between words calculated from Web texts. Experimental results showed that, in terms of precision, our method outperformed nontrivial baseline methods by 0.155 to 0.650 for the top 10,000 pairs and by 0.190 to 0.500 for the top 100,000 pairs. Furthermore, we confirmed that our method could acquire hyponymy relation pairs that widely-used lexico-syntactic pattern based approaches could not.
著者
隅田 飛鳥 吉永 直樹 鳥澤 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_3-3_24, 2009 (Released:2011-09-01)
参考文献数
21
被引用文献数
2 6 12

本稿では,Wikipedia の記事構造を知識源として,高精度で大量の上位下位関係を自動獲得する手法について述べる.上位下位関係は情報検索や Web ディレクトリなど,膨大な Web 文書へのアクセスを容易にする様々な技術への応用が期待されており,これまでにも様々な上位下位関係の抽出手法が開発されてきた.本稿では,Wikipedia の記事構造に含まれる節や箇条書きの見出しから,大量の上位下位関係候補を抽出し,機械学習を用いてフィルタリングすることで高精度の上位下位関係を獲得する手法を開発した.実験では,2007 年 3 月の日本語版 Wikipedia 2.2 GB から,約 77 万語を含む約 135 万対の上位下位関係を精度 90% で獲得することができた.