著者
小林 優佳 久島 務嗣 吉田 尚水 藤村 浩司 岩田 憲治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.37, no.3, pp.IDS-D_1-14, 2022-05-01 (Released:2022-05-01)
参考文献数
63

This paper proposes a new method for slot filling of unknown slot values (i.e., those are not included in the training data) in spoken dialogue systems. Slot filling detects slot values from user utterances and handles named entities such as product and restaurant names. In the real world, there is a steady stream of new named entities and it would be infeasible to add all of them as training data. Accordingly, it is inevitable that users will input utterances with unknown slot values and spoken dialogue systems must correctly estimate them. We provide a value detector that detects keywords representing slot values ignoring slots and a slot estimator that estimates slots for detected keywords. Context information can be an important clue for estimating slot values because the values in a given slot tend to appear in similar contexts. The value detector is trained with positive samples, which have keywords corresponding to slot values replaced with random words, thereby enabling the use of context information. However, any approach that can detect unknown slot values may produce false alarms because the features of unknown slot values are unseen and it is difficult to distinguish keywords of unknown slot values from non-keywords, which do not correspond to slot values. Therefore, we introduce a negative sample method that replaces keywords with nonkeywords randomly, which allows the slot estimator to learn to reject non-keywords. Experimental results show that the proposed method achieves an 6,15 and 78% relative improvement in F1 score compared with an existing model on three datasets, respectively.
著者
藤村 浩司
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J105-D, no.3, pp.154-166, 2022-03-01

本論文では音声の感情識別に対して,短時間フレーム特徴量であるLow-level descriptors (LLDs)の統計量を一定の時間窓ごとに求めたHigh-level statistical functions (HSFs)に基づく感情識別器を,異なる複数の時間窓長ごとに用意し,それらの識別結果をBoosting手法により統合する手法を提案する.異なる窓長に基づく複数時間解像度特徴量を用いることで,感情の種類に応じて適切な時間解像度が異なる場合でも,高精度な識別が可能となる.Mel-Frequency Cepstrum Coefficients (MFCC)とMel-Filterbank (MF)をLLDとし,異なる窓長で求められる平均値及び分散値をHSFとして,Long short-term memory (LSTM)による感情識別器を窓ごとに構築する.それぞれのLSTM出力はGradient Boosting Decision Trees (GBDT)を用いて統合される.統合において,新たに提案する中央値特徴量を用いてTree上部に対して極端な割合の分割をしないように制約を加えることで,GBDTの性能向上を図る.EmoDBとRAVDESSの二つの音声感情識別のためのデータベースに対して10-foldのランダムサンプリングバリデーションを適用して識別精度を評価し,LSTMを用いた既存手法と比較した結果,EmoDBに対しては82.4%から84.8%に,RAVDESSに対して76.4%から83.3%に性能が向上し,本手法の有効性を確認した.RAVDESSに対しては我々の知る限り最高の性能を達成した.
著者
白勢 彩子 原 直 藤村 浩司 伊藤克亘 武田 一哉 板倉 文忠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.124, pp.253-258, 2003-12-19

本研究は,音声対話システムの利用に必要な知識,技術の学習過程および問題点を明らかとし,これらがシステム評価に与える影響を検討するため,実システムを用いた観察実験を行ない,それによって得られた結果に基づいて,ユーザの達成度とアンケートによるシステム評価との関連性に関する基礎的な議論を行なった.分析の結果,発話認識率と発話数とに相関がある評価項目はほとんどなく,むしろ,会話満足度,システム理解度と多く関連することが明らかとなった.従来,認識率とシステム評価とがよく一致することが知られているが,他の観点からの評価も考慮する必要があることが示唆された.今後は,被験者数を増大させて条件を統制した実験を行ない,より詳細な議論をしていきたい.This study aims to describe user problems and process of learning skill in using spoken dialogue systems and to reveal how these impact on the evaluation of the system usefulness. For this aim, we designed a new dialogue system and carried out a field test for a large number of subjects and asked them to evaluate the usefulness of the system. The results showed that the evaluation of the system did not correlate a recognition rate but user satisfaction and comprehension. This suggested that the spoken dialogue systems should be evaluated in terms of user factors. Controlled experiments are needed to discuss in detail.