著者
陳亮 徳田 尚之 侯 平魁 永井 明 陳若愚 鄭然
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.50, pp.69-79, 2005-05-27

WORDNETのような開発に膨大な時間の掛かる同義語辞書に頼らずに、素人でも使える大型FAQシステム向け自然言語の質疑応答システムを構築した。FAQシステムを自然言語クエリにより検索する仕組みとして、本システムは差分LSI(DLSI)法によるコンテンツ検索と、テンプレート・オートマトン・マッチングによる統語検索を組み合わせというユニークな構想を持ち、次の3段階処理がその基礎となる。第一段階では、 FAQアイテムとクエリのターム展開の有効性に不可欠なtf-idf展開を保証するために、質問部と回答部間に存在する語彙ギャップを埋める処理をしたこと、第二段階では、類似意味のコンテンツ検索により、差分LSI法を意味的な一次フィルターとして用い、意味的に等価な質問部・回答部ペアのみに絞り込んだこと、第3段階目では、柔軟性に富む自然言語の統語検索機能を持つテンプレートマッチングにより最終的な意味的に等価な表現をもつ、最適なFAQの質問部・回答部ペアに絞り込みユーザに提示する。BURKE達の編集するのに膨大な労力を必要とする同義語辞書WORDNETに頼るFAQ Finder.に較べると、我々が開発したこのスキームは簡単に実現可能であり、大幅に労力が削減される。この方法の有効性はLucene FAQ System のFAQシステムで実験的に実証した。To facilitate and enhance the usability of a large FAQ system, we have developed a new user-friendly, combined content and syntactic search-based QA system that accepts free format natural language queries from users, and guide them to an answer item by locating and pinpointing the appropriate Q&A items within the FAQ dataset. To maximize the combined effects of both content and syntactic searches, we have introduced a three step core procedure comprising the term expansion of FAQ items and queries to ensure the validity of the tf-idf expansion, the DLSI (differential latent semantic indexing)-based semantic filtering step to capture semantically similar expressions in content; and the final flexible and powerful lexical template matching step to accommodate a rich variety of natural language queries of semantically similar expressions. Unlike the FAQ Finder of (Burke et al., 1997) which depends on a thesaurus-type dictionary such as Word-Net to match question and answer, the new scheme is simple to implement. An experimental investigation using the Lucene FAQ collection confirms the effectiveness of the method.