著者
但馬 康宏 北出 大蔵 中野 未知子 藤本 浩司 中林 智 小谷 善行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.7-12, 2007-07-24

本研究において、比較的長い対話に対する話題分割を行う手法を提案する。隠れマルコフモデル(HMM)による話題分割は、これまでも盛んに研究されており、音声認識の分野で特に成果をあげている。しかし、一般的に対話を単語の列として取り扱うため、長さが数百語程度以上の対話の場合にその対話の発生確率が著しく低くなり、有効精度不足となる。本手法では、対話における発話を HMM の出力単位として話題分割を行う。対話における1発話ごとにベイズ推定によりあらかじめ話題のラベルを付けた後、そのラベル列を出力する HMM を構成することにより話題の切り替わりを特定する。ここで、HMM はすべての状態間の遷移を許したモデルとした。68 名の被験者で対話実験を行い、62 対話を作成し、本手法の有効性を検証した。この結果、1500 単語程度の長さの対話にたいして良好な分割精度を出せたことを報告する。We propose a dialogue segmentation and topic structure finding method via Hidden Markov Model (HMM). HMM has been applied for this problem in previous studies and its advantages have been shown. Nevertheless, the length of the dialogue must be restricted about a hundred words because of computational errors, i.e. the occurrence probability of a dialogue which has a thousand words tends to be less than 10-1000 and we fail to construct HMM because of lack of computational precision. In this paper, we propose a new approach for this problem by HMM whose state outputs a symbol of an utterance. Every utterance is classified into some symbols of a segment by a Bayesian classifying method, then we construct an HMM for the target dialogue. The HMM in our method can handle a long dialogue whose length is about 1500 words for 1000 kinds of words. We used 62 dialogues by 68 testee and evaluate our method.