著者
伊藤 仁 伊藤 彰則
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.9, pp.1745-1754, 2010-09-01

音声信号を振幅と周波数が時間変化する正弦波成分の和として近似する正弦波モデルでは,非定常部でのパラメータ推定精度が問題となる.本論文では,音声信号の時間軸を第1調波成分の位相軸に置き換える時間軸変換と,正弦波成分の振幅と周波数の非定常性を単純な時変関数で近似する局所変化率変換に基づく正弦波パラメータ推定法を提案する.成人男女75名が発話した900個の単語音声を用いた性能評価実験により,提案法の推定精度を二つの既存手法と比較した.各手法の推定精度は,パラメータから再合成した信号に基づいて入力対残差パワー比(S/R)として定量化した.提案法の平均S/Rは28.4 dBで,時間軸変換を行わずパワースペクトルの局所ピークを用いるPeak-picking法(14.4 dB)や,正弦波成分の振幅の非定常性を考慮しないIF-attractor法(23.4 dB)より高かった.この推定精度の差は,特に入力音声の非定常性が高い場合に大きくなった.これらの結果から,非定常部を含む有声音声の正弦波パラメータの高精度推定において,時間軸変換と局所変化率変換を統合した提案法の有効性が確認された.

言及状況

はてなブックマーク (1 users, 2 posts)

収集済み URL リスト