著者
橋本 力 鳥澤健太郎 黒田 航 デサーガステイン 村田 真樹 風間 淳一
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.1, pp.293-307, 2011-01-15

テキスト間含意関係認識と呼ばれる技術は,深い自然言語理解を必要とするタスクにおいて重要な役割を果たす.この技術が実用レベルに至るには,大規模な含意知識ベースの構築が不可欠である.本稿では,動詞間含意関係知識の大規模な獲得を目的として,条件付き確率に基づく方向付き類似度尺度を提案する.提案手法の評価実験では,WWW上の日本語1億文書から得られた52,562動詞(異なり)を対象とした.この動詞セットには,日常的に使用される動詞も特定の専門的な領域でのみ用いられるような動詞も区別せず含まれている.提案手法と先行研究の手法それぞれのスコア上位20,000位までの出力からランダムに選ばれた200サンプルを人手評価したところ,比較対象のすべての先行研究の手法の精度を提案手法の精度が上回ることを確認した.また,提案手法のスコア上位100,000の出力を人手評価したところ,大規模動詞含意知識ベースを構築する出発点としてリーズナブルな精度が得られていることを実験により確認した.Textual entailment recognition plays a fundamental role in tasks that require in-depth natural language understanding. For entailment recognition technologies to serve for real-world applications, a large-scale entailment knowledge base is indispensable. This paper proposes a conditional probability based directional similarity measure to acquire verb entailment pairs on a large scale. We targeted 52,562 verb types that derived from 108 Japanese Web documents, regardless whether they were used in daily life or only in specific domains. Evaluating 200 samples that were chosen randomly from the top 20,000 verb entailment pairs acquired by previous methods and ours, we found that our similarity measure outperformed the previous ones. For the top 100,000 results, our method worked well too.