- 著者
-
藤村 浩司
- 出版者
- The Institute of Electronics, Information and Communication Engineers
- 雑誌
- 電子情報通信学会論文誌 D (ISSN:18804535)
- 巻号頁・発行日
- vol.J105-D, no.3, pp.154-166, 2022-03-01
本論文では音声の感情識別に対して,短時間フレーム特徴量であるLow-level descriptors (LLDs)の統計量を一定の時間窓ごとに求めたHigh-level statistical functions (HSFs)に基づく感情識別器を,異なる複数の時間窓長ごとに用意し,それらの識別結果をBoosting手法により統合する手法を提案する.異なる窓長に基づく複数時間解像度特徴量を用いることで,感情の種類に応じて適切な時間解像度が異なる場合でも,高精度な識別が可能となる.Mel-Frequency Cepstrum Coefficients (MFCC)とMel-Filterbank (MF)をLLDとし,異なる窓長で求められる平均値及び分散値をHSFとして,Long short-term memory (LSTM)による感情識別器を窓ごとに構築する.それぞれのLSTM出力はGradient Boosting Decision Trees (GBDT)を用いて統合される.統合において,新たに提案する中央値特徴量を用いてTree上部に対して極端な割合の分割をしないように制約を加えることで,GBDTの性能向上を図る.EmoDBとRAVDESSの二つの音声感情識別のためのデータベースに対して10-foldのランダムサンプリングバリデーションを適用して識別精度を評価し,LSTMを用いた既存手法と比較した結果,EmoDBに対しては82.4%から84.8%に,RAVDESSに対して76.4%から83.3%に性能が向上し,本手法の有効性を確認した.RAVDESSに対しては我々の知る限り最高の性能を達成した.