著者
陳亮 徳田 尚之 侯 平魁 永井 明 陳若愚 鄭然
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.50, pp.69-79, 2005-05-27

WORDNETのような開発に膨大な時間の掛かる同義語辞書に頼らずに、素人でも使える大型FAQシステム向け自然言語の質疑応答システムを構築した。FAQシステムを自然言語クエリにより検索する仕組みとして、本システムは差分LSI(DLSI)法によるコンテンツ検索と、テンプレート・オートマトン・マッチングによる統語検索を組み合わせというユニークな構想を持ち、次の3段階処理がその基礎となる。第一段階では、 FAQアイテムとクエリのターム展開の有効性に不可欠なtf-idf展開を保証するために、質問部と回答部間に存在する語彙ギャップを埋める処理をしたこと、第二段階では、類似意味のコンテンツ検索により、差分LSI法を意味的な一次フィルターとして用い、意味的に等価な質問部・回答部ペアのみに絞り込んだこと、第3段階目では、柔軟性に富む自然言語の統語検索機能を持つテンプレートマッチングにより最終的な意味的に等価な表現をもつ、最適なFAQの質問部・回答部ペアに絞り込みユーザに提示する。BURKE達の編集するのに膨大な労力を必要とする同義語辞書WORDNETに頼るFAQ Finder.に較べると、我々が開発したこのスキームは簡単に実現可能であり、大幅に労力が削減される。この方法の有効性はLucene FAQ System のFAQシステムで実験的に実証した。To facilitate and enhance the usability of a large FAQ system, we have developed a new user-friendly, combined content and syntactic search-based QA system that accepts free format natural language queries from users, and guide them to an answer item by locating and pinpointing the appropriate Q&A items within the FAQ dataset. To maximize the combined effects of both content and syntactic searches, we have introduced a three step core procedure comprising the term expansion of FAQ items and queries to ensure the validity of the tf-idf expansion, the DLSI (differential latent semantic indexing)-based semantic filtering step to capture semantically similar expressions in content; and the final flexible and powerful lexical template matching step to accommodate a rich variety of natural language queries of semantically similar expressions. Unlike the FAQ Finder of (Burke et al., 1997) which depends on a thesaurus-type dictionary such as Word-Net to match question and answer, the new scheme is simple to implement. An experimental investigation using the Lucene FAQ collection confirms the effectiveness of the method.
著者
大元 聡 林 暁紅 永井 秀利 中村 貞吾 野村 浩郷
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.47-52, 2006-05-19
被引用文献数
1

パソコン技術サポートを行うメールコールセンターの自動化に関して、本研究では、既存の質問応答メールデータをカテゴリ化することによる質問応答データベースを構築し、さらにカテゴリごとにカテゴリ回答文を作成し、未知の問い合わせメールが文書ベクトルを用いて類似度を計算する質問カテゴリ判定システムによって属するカテゴリに判定され、そのカテゴリのカテゴリ回答文を用いて回答を作成し、作成した回答を最終査読者に提示する手法とシステムを提案する。提案手法の有効性を確認するため、実際のシステムを作成して実験を行った結果、145個の質問カテゴリを用いて、86%の割合で正解の質問カテゴリを上位3位以内に推定した。このシステムは、メールコールセンターで実務に供用できる状態にある。キーワード メールコールセンター 質問応答データベース 文書 ベクトル 類似度判定The present paper discusses a support system at a mail call center.The mail call center receives inquiries from computer user by e-mails.Then the mail call center replies to them within 24hours.In order to cope with such a hard task,we propose system that can perform almost all automatic processing except the final check by a human befbre sending off the reply to the user.First,we develop a Q&A database by using the reviewed Q&A mails,We categorize these Q&A data depending on their contents.Every category has its own angwer respectively.Second,we apply the document vector method so that the system calculates the similarity between the new inquiry and the question categories in the Q&A database.From the answers attached to the found question categories,it generates the candidate new answers that might be adequate to the question,Finally, they are transferred to the reviewer in order to select the most adequate one.According to our examination,by using145 question categories,we obtamed86% precision about determning the right question category.The system is ready to use at a mail call center Keyword mail-call center,Q&A database,document vector.similarity evaluation