著者
牧野 拓哉 野呂 智哉 岩倉 友哉
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.1, pp.117-134, 2017-02-15 (Released:2017-05-15)
参考文献数
15

本論文では,ユーザからの自然文による問い合わせを対応する Frequently Asked Question (FAQ) に分類する文書分類器を用いた FAQ 検索手法を提案する.本文書分類器は,問い合わせ中の単語を手掛かりに,対応する FAQ を判別する.しかし,FAQ の多くは冗長性がないため,FAQ を学習データとして文書分類器を作成する方法では,ユーザからの多様な問い合わせに対応するのが難しい.そこで,この問題に対処するために,蓄積されたユーザからの問い合わせ履歴から学習データを自動生成し,文書分類器を作成する.さらに,FAQ および文書分類用に自動生成した学習データを用いて,通常使われる表層的な手がかりに加えて,本文書分類器の出力を考慮するランキングモデルを学習する.ある企業のコールセンターの 4,738 件の FAQ および問い合わせ履歴 54 万件を用いて本手法を評価した.その結果,提案手法が,pseudo-relevance feedback および,統計的機械翻訳のアライメント手法を用いて得られる語彙知識によるクエリ拡張手法と比較し,高いランキング性能を示した.
著者
牧野 拓哉 岩倉 友哉
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.6, pp.B-K46_1-8, 2020-11-01 (Released:2020-11-01)
参考文献数
25
被引用文献数
1

Pointer-generator, which is the one of the strong baselines in neural summarization models, generates summaries by selecting words from a set of words (output vocabulary) and words in source documents. A conventional method for constructing output vocabulary collects highly frequent words in summaries of training data. However, highly frequent words in summaries could be usually a high possibility to be frequent in source documents. Thus, an output vocabulary constructed by the conventional method is redundant for pointer-generator because pointergenerator can copy words in source documents. We propose a vocabulary construction method that selects words included in each summary but not included in its source text of each pair. Experimental results on CNN/Daily Mail corpus and NEWSROOM corpus showed that our method contributes to improved ROUGE scores while obtaining high ratios of generating novel words that do not occur in source documents.