著者
河井 恒 戸田 智基 山岸 順一 平井 俊男 倪 晋富 西澤 信行 津崎 実 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2688-2698, 2006-12-01
参考文献数
43
被引用文献数
15

本論文では,ATR音声言語コミュニケーション研究所が開発した新しい音声合成システムXIMERAについて述べる.XIMERAは,これまでATRで開発された音声合成システムυ-Talk及びCHATRと同様,コーパスベース方式を採用している.XIMERAの特長は,(1)大規模な音声コーパス(日本語男声110時間,日本語女声59時間,中国語女声20時間,それぞれ単一話者),(2)HMMを用いた韻律パラメータのモデル化及び生成,(3)知覚実験に基づく素片選択コスト関数の最適化,である.XIMERAの性能を評価するため,市販の音声合成システム10製品と合成音声の自然性を比較したところ,XIMERAが他のシステムより優れていることが示された.
著者
倪 晋富 河井 恒 津崎 実
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.263, pp.19-24, 2003-08-14

波形素片接続型音声合成の音質を向上させようとすると,大規模な音声コーパスが必要となり,結果的に音声収録に数ヶ月〜数年という長期間を要する。録音セッションが異なると録音系の特性が変化する可能性があり,その結果多少とも声質が変化する。本稿では,1名の男性話者が2年間に677回発声した同一の日本語文の音声データを試料として用い,長時間平均パワースペクトルの等価に関する実験を行った結果について報告する。まず,フレーム長の設定など,長時間平均パワースペクトル推定の最適条件について検討する。さらに,4種類のフィルタ,すなわちLPC係数を介して設計されたIIRフィルタ,MLSAフィルタ,ケプストラムにもとづく平滑化を伴うFIR,メルケプストラムにもとづく平滑化を伴うFIR,を等価フィルタとして取り上げ,それぞれの最適な設計条件を検討する。各フィルタの等価効果の比較は,等価対象音声の音響的特微量のガウス分布に関する尤度にもとづいて行う。予備的な主観評価実験の結果,提案手法が録音系周波数特性の等価に有効であり,かつ音質劣化を生じないことが示唆された。