著者
倪 晋富 河井 恒 津崎 実
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.263, pp.19-24, 2003-08-14

波形素片接続型音声合成の音質を向上させようとすると,大規模な音声コーパスが必要となり,結果的に音声収録に数ヶ月〜数年という長期間を要する。録音セッションが異なると録音系の特性が変化する可能性があり,その結果多少とも声質が変化する。本稿では,1名の男性話者が2年間に677回発声した同一の日本語文の音声データを試料として用い,長時間平均パワースペクトルの等価に関する実験を行った結果について報告する。まず,フレーム長の設定など,長時間平均パワースペクトル推定の最適条件について検討する。さらに,4種類のフィルタ,すなわちLPC係数を介して設計されたIIRフィルタ,MLSAフィルタ,ケプストラムにもとづく平滑化を伴うFIR,メルケプストラムにもとづく平滑化を伴うFIR,を等価フィルタとして取り上げ,それぞれの最適な設計条件を検討する。各フィルタの等価効果の比較は,等価対象音声の音響的特微量のガウス分布に関する尤度にもとづいて行う。予備的な主観評価実験の結果,提案手法が録音系周波数特性の等価に有効であり,かつ音質劣化を生じないことが示唆された。

言及状況

Twitter (1 users, 1 posts, 0 favorites)

収録に数ヶ月~数年かかるような場合に,収録時期などによる声質の変化の抑制. http://t.co/3navKSij

収集済み URL リスト