- 著者
-
岡登洋平
加藤佳司
山本 幹雄
板橋秀一
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.40, no.2, pp.469-478, 1999-02-15
- 被引用文献数
-
13
機械とユーザの対話において 機械が人間と同様に相槌を打つことが可能であれば ユーザの話しやすさの改善につながる. 本研究では 話し手の発話間にポーズの出現とほぼ同時に相槌が打たれる場合を対象として システムによる相槌挿入を試みた. システムが適切なタイミングで相槌を打つにはポーズを検出するよりも早く相槌の挿入判定を行う必要がある. そこで本稿では話し手の発話から抽出した韻律情報を用いて 予測的に相槌の挿入判定を行う手法について検討した. まず対象としたテレフォンショッピングをタスクとした対話について音声を分析し 聞き手の相槌が韻律的に特徴のある話し手の発話箇所で打たれていることを示した. 次に相槌音声を消去した対話を聞かせ 相槌の箇所を人間が判定する実験を行ったところ 実際に出現した相槌の76%は実験でも検出され 発話長が長い場合に相槌を打つと判定した被験者が多いことが明らかになった. さらに相槌を打つタイミングについて 対話の分析と知覚実験を行った. この結果 相槌は発話中のポーズ開始から0.3秒以内に打つ必要があることが明らかになった. そこでテンプレートを用いた韻律パターンの認識による相槌タイミングの検出方法を提案し 相槌判定のための予測時間を変えて相槌挿入判定とタイミングの検出実験を行ったところ 予測時間0.1秒のとき84% 予測時間0.4秒のとき72%のタイミング正解率を得た. また予測時間0.1秒のとき得られたシステムの応答を人間が評価したところ 抽出箇所の74%は自然な発声箇所であると判定された.A user's degree of comfort in a man-machine spoken dialog environment is likely to improve, if spoken dialog systems can provide correct 'Aizuchi' responses to the use's utterances. This hypothesis was evaluated using a dialog corpus that relates to telephone shopping tasks, and contains 'Aizuchi' responses near the end of a speaker's utterance. The evaluation also requires a dialog system capable of detecting 'Aizuchi' timing before the end of the utterance. To this end, therefore, a method is proposed which uses prosodic information to guide correct 'Aizuchi' responses. A preliminary prosodic analysis of our utterances confirmed that an 'Aizuchi' indeed relates to the duration, speaking rate and minimum F0 of an utterance. Next, using dialogs from which 'Aizuchi' responses were previously removed, an experiment was carried out to spontaneously prompt such responses from human subjects. Results show that subjects were able to match about 80% of the 'Aizuchi' responses contained in the original dialogs, and that many subjects tended to do so during long utterances. Then, a dialog analysis was performed to investigate 'Aizuchi' timing, Results of which indicate that the system should give an 'Aizuchi' within 0.3 seconds of the end of the speaker's utterance. By comparison, in an 'Aizuchi'-prompting experiment based on prosodeic pattern recognition, the system achieved 84% with no 0.1-second prediction of end of utterance and 72% with 0.4-second prediction. Finally, human perceptual evaluation of the timing of system detection, yielded an accuracy of 74% which lends support to the naturalness of 'Aizuchi' response given by system.