著者
小川 樹 森勢 将雅
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J103-D, no.4, pp.205-214, 2020-04-01

音声合成や声質変換に関する技術は幅広く提案され,既にいくつもの製品が多岐にわたって利用されるようになった.声質変換技術の普及により,音声の加工も誰でも手軽に行えるようになった.音声の加工には,音の3要素と呼ばれる「大きさ」,「高さ」,「音色」をそれぞれ加工する方法が広く用いられている.大きさや高さは,音圧レベルや基本周波数を加工するため,加工の結果の予測が容易である.しかし,音色の加工は,加工に伴う劣化の予測が困難という問題点がある.本研究では,音声の音色加工に伴う劣化を計測する知覚モデルによりこの問題の解決を図る.様々なスペクトル尺度と距離関数の組み合わせと音質の関係を調査し,その結果を用いて知覚モデルを開発した.主観評価実験を実施し,従来法と開発した知覚モデルの間に,主観評価結果との相関係数の有意差があるかの検定を行った.検定の結果,p<0.001で有意な差があり,従来法より開発した知覚モデルが優れていることを示した.