著者
伊藤 彰則 王 欽悦 鈴木 基之 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.50, pp.41-46, 2005-05-26
参考文献数
9

自然な対話の映像の中から笑いを検出するための手法について述べる。笑いは対話中の表情としてもっとも多く見られるものであり、これを検出することはユーザの心的状態の推定にとって有用であると考えられる。また、笑い声を高精度に検出できれば、対話音声の認識誤り削減に有効である。本稿では、カメラで撮影したユーザの顔から表情を認識する手法と、マイクで収録したユーザの音声から笑い声を検出する手法を組み合わせることで、笑いの検出精度を向上させる方法を検討する。顔画像による表情認識では、顔の特徴点検出に基づく特徴量を用い、特定話者の場合で再現率・適合率とも80%以上の精度で自然な対話映像から笑いの表情を認識することが可能になった。また、GMMによる音声の識別と画像情報を組み合わせた笑い声の検出手法を提案した。実験結果より、音声と画像の統合により適合率が向上することが示され、最終的には再現率・適合率とも70%以上の値が得られた。This paper describes a method to detect smiles and laughters from the video of natural dialogue. A smile is the most common facial expression observed in a dialogue. Detecting a user's smiles and laughters can be useful for estimating the mental state of the user of a spoken-dialogue-based user interface. In addition, detecting laughter sound can be utilized to prevent the speech recognizer from wrongly recognizing the laughter sound as meaningful words. In this paper, a method to detect smile facial expression and laughter sound robustly by combining a image-based facial expression recognition method and an audio-based laughter sound recognition method. The image-based method uses a feature vector based on feature point detection from face images. The method could detect smile faces by more than 80% recall and precision rate. A method to combine a GMM-based laughter sound recognizer and the image-based method could improve the accuracy of detection of laghter sounds compared with methods that use image or s und only. As a result, more than 70% recall and precision rate of laughter sound detection was obtained from the natural conversation videos.