- 著者
-
土井 啓成
中村 圭吾
戸田 智基
猿渡 洋
鹿野 清宏
- 出版者
- 情報処理学会
- 雑誌
- 研究報告音声言語情報処理(SLP) (ISSN:09196072)
- 巻号頁・発行日
- vol.2009, no.18, pp.1-6, 2009-07-10
- 参考文献数
- 11
喉頭摘出者が行う発声法の一つに,食道等を用いて音源を生成し,発声を行う食道発声法がある.食道発声法は国内で広く使用されているが,生成された音声は健常者の音声と比較して不自然である.本稿では,食道発声音声の音質改善を目指し,食道発声音声から健常者音声への統計的声質変換を用いた音質改善法 (ES-to-Speech) を提案する.健常者音声のスペクトル特徴量や F₀,非周期成分といった音源特徴量は,それぞれ食道発声音声のスペクトル特徴量から独立に推定する.変換音声の客観評価実験及び,主観評価実験結果から,ES-to-Speech は,食道発声と同等の明瞭性を保ったまま,自然性を大きく改善できることを示す.また,F₀ 推定時に,入力特徴量として食道発声音声のスペクトルと F₀ の併用も試みることで,食道発声音声の F₀ 情報を用いる効果を検証する.This paper proposes a novel method of enhancing esophageal speech based on statistical voice conversion. Esophageal speech is one of the speaking methods for total laryngectomees to speak by generating sound excitations at their esophagus. Although esophageal speech is the major method in Japan, the generated voices sound unnatural. To improve naturalness of the esophageal speech, we propose a conversion method from esophageal speech to normal speech (ES-to-Speech) using a statistical voice conversion technique. Spectral features and excitation features, such as F₀ and aperiodic components, of the normal speech are independently estimated from the spectral features of the esophageal speech based on the maximum likelihood criterion. The effectiveness of ES-to-Speech is evaluated by conducting objective and subjective experiments to demonstrate that the proposed method yields significant improvements in naturalness of esophageal speech while keeping its intelligibility.