著者
大谷 大和 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.91, no.4, pp.1082-1091, 2008-04-01
被引用文献数
3

声質変換において,スペクトル特徴量系列の統計的モデル化技術の発展により,その変換性能は大幅に改善された.しかし,声質変換で用いられる音源モデルでは実際の音源を正確に表現できていないため,その変換音声の自然性は十分なものとはいいがたい.これを改善するために,スペクトル特徴量系列と同様に音源特徴量系列に対しても統計的なモデリングを行う必要がある.本論文では混合正規分布モデル(Gaussian Mixture Model: GMM)に基づく声質変換法の枠組みに対してSTRAIGHT混合励振源を導入する.提案法では,スペクトル特徴量系列及び音源特徴量系列に対して最ゆう推定(Maximum likelihood estimation: MLE)に基づく特徴量変換が行われる.客観評価実験並びに主観評価実験の結果より,提案法により音質,話者性変換精度が大きく改善されることを示す.
著者
田村 震一 沢井 秀文 中村 雅己 鹿野 清宏
出版者
一般社団法人映像情報メディア学会
雑誌
テレビジョン学会誌 (ISSN:03866831)
巻号頁・発行日
vol.43, no.9, pp.935-943, 1989
被引用文献数
1

音声の分野において, ニューラルネットの適用が活発になっている.本解説では, 多層ニューラルネットワークの学習アルゴリズム, および非線形信号処理への応用の可能性について述べ, 音声認識, 音声合成, 単語列予測, 雑音抑圧, 情報圧縮への適用例を紹介する.
著者
鮫島 充 ランディゴメス 李晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.7, pp.2295-2304, 2006-07-15
被引用文献数
2

子供の音声は,声道長や基本周波数が成人音声と異なるだけでなく,発声スタイルが自発的で年齢や個人による声の変動も大きいため,通常の成人用音韻モデルでは認識精度が著しく劣化する.また,子供が正確に文章を読み上げることは多大な労力が必要であり,大規模な整った音声データベースの作成が難しい.本研究では,子供の自発的な発話の高精度な認識を目指して,音声情報案内システムによる子供の実音声の大規模収集,年齢層別子供用音韻モデルの構築と評価,および教師なし話者適応の検討を行った.大語彙連続音声認識実験より,実環境で収集した子供音声を用いることで,単語認識精度が71.1%と既存の読み上げ音声モデルに比べて絶対値で23.9%の改善が得られた.また,年齢層別の傾向では,特に幼児の音声において年齢層依存モデルによる大幅な精度改善が見られた.次に,自動収集した話者ラベルなしの大量データに対する,自動話者クラスタリングを用いた十分統計量に基づく教師なし話者適応を提案した.提案法により59 966個の発話データをクラスタリングし,近傍話者クラスタを用いて音韻モデルを適応することで,クラスタ数200の条件において,年齢層依存モデルに対してさらに幼児で2.2%,低学年子供で1.7%,高学年子供で0.5%の認識性能の改善が得られた.Child's utterance has totally different property from adult's speech, not only by their acoustic property, but by their incorrect pronunciation and totally ill-formed speaking style. The rapid physiological changes during the growth also prevent accurate speech recognition using a single model. However, collection of child's read speech is difficult in natural, since forcing them to read a sentence precisely will make the utterances far from spontaneous one. In this research, we evaluated acoustic models and an unsupervised adaptation method based on a large number of real spontaneous child speech automatically collected through an actual spoken dialogue system. Acoustic model trained by an actual spontaneous speech achieves the word accuracy of 71.1%, which outperforms one trained by read speech by 23.9%. Detailed investigation is carried out for child's ages (infant pupils, lower-grade elementary schoolers and higher-grade elementary schoolers), and accuracy of the infant pupils was greatly improved by using the age-dependent model. Then a speaker clustering method is proposed to perform unsupervised speaker adaptation based on HMM Sufficient Statistics on automatically collected database where no user tag is available. Clustering the 59,966 utterances to 200 speaker clusters, and selecting the neighbor one for each input to construct the adapted model has resulted in a further improvement of recognition accuracy by 1.5% as compared with age-class dependent models.
著者
藤田 洋子 竹内 翔大 川波 弘道 松井 知子 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.3, pp.1-6, 2010-02-05

実環境で,音声認識を用いた音声情報案内システムを稼動させる場合には,雑音などの音声以外の入力やユーザ同士の背景会話などが混入されてくることがある.これらの入力はシステムの誤作動・誤認識を引き起こし,システムの応答性能を低下させる原因となる.そのため,システムへの入力として適当な入力 (有効入力) と不適当な入力 (無効入力) の識別を行い,無効入力を棄却することにより,無効入力に対する応答処理を行わないことが重要となる.一般的に有効入力と無効入力を識別には音響的特徴が用いられる.しかし,入力音の音声認識結果から得られる言語的な情報を使うことにより,無意味な認識結果が出力される雑音の識別に加え,システムのタスクの言語的な特徴を反映させた有効入力,無効入力を識別することが可能になると考えられる.そこで本稿では,Bag-of-Words (BOW) を特徴量とした Support Vector Machine (SVM) による無効入力の識別を検討した.実環境音声認識システム 「たけまるくん」 の入力データを用いた実験では,GMM に基づく無効入力の識別と比べ,分類誤り率を 23.30% から 15.90% に削減することができた.また,BOW に GMM から得られる音響尤度,発話時間や SNR を組み合わせた手法についても検討した.その結果,分類誤り率を 13.60% まで削減することができた.On a real environment speech-oriented information guidance system, a valid and invalid input discrimination process is important as invalid inputs such as noise, laugh, cough and meaningless utterances lead to unpredictable system responses. Generally, acoustic features such as MFCC are used for discrimination. Comparing acoustic likelihoods of GMMs (Gaussian Mixture Models) from speech data and noise data is one of the typical methods. In addition to that, using linguistic features, such as speech recognition result, is considered to improve discrimination accuracy as it reflects the task-domain of invalid inputs and meaningless recognition results from noise inputs. In this report, the authors propose to introduce Bag-of-Words (BOW) as a feature to discriminate between valid and invalid inputs. Support Vector Machine (SVM) is also employed to realize robust classification. Experiments using real environment data from the guidance system "Takemaru-kun" were conducted. By applying BOW and SVM, the classification error rate (CER) is reduced to 15.90% , from 23.30% when using GMMs. In addition, experiments using features combining BOW with acoustic likelihoods from GMMs, SNR and duration were conducted, improving the CER to 13.6% .
著者
西村 竜一 西原 洋平 鶴身 玲典 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.87, no.3, pp.789-798, 2004-03-01
被引用文献数
65

実環境下での音声インタフェースの研究プラットホームとして,生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムは,大語彙連続音声認識を基礎とする一問一答形式の音声インタフェースをもち,同センターや生駒市に関する受付案内を可能とする.システムはセンターのエントランスに常設され,開館時は誰でも自由にエージェントとのコミュニケーションを楽しむことができる.ユーザとシステムとのインタラクションの観察を目的とした5か月間にわたる本システムのフィールドテストを実施し,ユーザによる発話ログの収集を行った.本論文では,はじめに音声インタフェース部を中心に本システムの構成について説明する.フィールドテストの結果,男女幅広い年齢層のユーザによる発話を含む約1,362分の音声データを収集した.その分析の結果から,大人と子供で発話内容の傾向に違いはあるが,本システムは有効に利用されていることを示す.実験では,実際のユーザ発話によるベースラインの認識性能の評価を行い,大人に対して86%の単語認識率と76%の応答正解率を得ることができた.しかし,子供のユーザに対する精度が十分でないなど,音声インタフェースの実用化に向けて多くの課題が残されていることを確認した.
著者
岩見 洋平 戸田 智基 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.619, pp.11-16, 2003-01-24

音声における感情表現は韻律におおきく影響されるといわれており,これまで,韻律を制御するためのさまざまな分析と,その分析から得られる規則を用いた合成手法が報告されている.しかし,それらの報告において,韻律は感情表現において重要な要素であるが,韻律だけでなく声質も重要な要素であると指摘されている.そこで本報告では,感情音声の声質を制御する手法として, GMM (Gaussian Mixture Model)に基づく声質変換を用いた感情音声合成手法を提案する.この手法では読み上げ調に発話された音声の声質を,感情音声のそれに変換する.本研究でははじめに,怒り,悲しみ,喜び,読み上げ調(平静)の音声データを収録した.そして,その音声を用いて感情音声への声質変換を行い,客観評価実験及び主観評価実験を行った.その結果,声質変換のみでは感情表現は不十分であるが,適切な韻律が与えられた場合,声質変換を行うことにより,感情の表現力が向上することが分かった.本報告では,感情音声データベースの作成と,その音声から作成した感情間の声質変換音声の評価について報告する.
著者
土井 啓成 中村 圭吾 戸田 智基 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.18, pp.1-6, 2009-07-10
参考文献数
11

喉頭摘出者が行う発声法の一つに,食道等を用いて音源を生成し,発声を行う食道発声法がある.食道発声法は国内で広く使用されているが,生成された音声は健常者の音声と比較して不自然である.本稿では,食道発声音声の音質改善を目指し,食道発声音声から健常者音声への統計的声質変換を用いた音質改善法 (ES-to-Speech) を提案する.健常者音声のスペクトル特徴量や F₀,非周期成分といった音源特徴量は,それぞれ食道発声音声のスペクトル特徴量から独立に推定する.変換音声の客観評価実験及び,主観評価実験結果から,ES-to-Speech は,食道発声と同等の明瞭性を保ったまま,自然性を大きく改善できることを示す.また,F₀ 推定時に,入力特徴量として食道発声音声のスペクトルと F₀ の併用も試みることで,食道発声音声の F₀ 情報を用いる効果を検証する.This paper proposes a novel method of enhancing esophageal speech based on statistical voice conversion. Esophageal speech is one of the speaking methods for total laryngectomees to speak by generating sound excitations at their esophagus. Although esophageal speech is the major method in Japan, the generated voices sound unnatural. To improve naturalness of the esophageal speech, we propose a conversion method from esophageal speech to normal speech (ES-to-Speech) using a statistical voice conversion technique. Spectral features and excitation features, such as F₀ and aperiodic components, of the normal speech are independently estimated from the spectral features of the esophageal speech based on the maximum likelihood criterion. The effectiveness of ES-to-Speech is evaluated by conducting objective and subjective experiments to demonstrate that the proposed method yields significant improvements in naturalness of esophageal speech while keeping its intelligibility.
著者
宮部 滋樹 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.104, no.246, pp.19-24, 2004-08-12
被引用文献数
1

本稿では,制御点で出力音を相殺するマルチチャネル音場制御とマイクロホンアレーを併用した,新たな小規模バージインフリー音声対話インタフェースを提案する.従来手法は,無音信号を再現するマイクロホン素子位置以外に応答音の再現点を制御点として設けているため,ユーザの位置を拘束していた.しかし提案手法は応答音を厳密に再現する制御点を設けないため,ユーザの移動を許容する.更に,応答音再現の制御点を設けないことにより,従来法では安定に動作させることができない少数のラウドスピーカ数でも安定なシステムを設計できる.実験により,従来法では安定に動作しない少ないラウドスピーカ数でも安定な制御が行えるということを示す.
著者
中島 淑貴 柏岡 秀紀 キャンベル ニック 鹿野 清宏
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 = The transactions of the Institute of Electronics, Information and Communication Engineers. D-II (ISSN:09151923)
巻号頁・発行日
vol.87, no.9, pp.1757-1764, 2004-09-01
参考文献数
11
被引用文献数
37

非可聴つぶやき認識」という,新しいスタイルの実用的な入力インタフェースを提案する.これは音声認識の雑音に対する脆弱性,情報の周囲への漏えい性を克服するため,声帯の振動を伴う通常音声の空気伝搬ではなく,「非可聴つぶやき(Non-Audible Murmur:NAM)」,つまり第三者に聴取不能な声帯の振動を伴わない調音呼気音の体内伝導を,体表からサンプリングし.HMMを用いて認識するものである,これを実現するための基礎として,第一に医療用膜型聴診器の原理を応用した体表接着型マイクロホンを開発した.第二として体内を伝導するNAMを採取して認識するために最適な接着位置を発見した.第三としてNAMの音響学的性質を検討した.第四として,この部位から採取されたサンプルを用い.HMM音響モデルに追加学習してNAM音響モデルを作成した.これらをもとに,日本語ディクテーション基本ソフトウェアを評価に用い,認識エンジンJuliusを使用して大語い連続認識実験を行い.NAM認識の実用可能性を検討した.
著者
庄境 誠 中村 哲 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.80, no.10, pp.2636-2644, 1997-10-25
被引用文献数
14 3

本論文では, 乗法性ひずみの補正に有効とされているケプストラム平均正規化法(CMN)について考察する. 従来のCMNは単一のケプストラム平均(CM)により正規化を行うため, 実環境に存在する多くの乗法性ひずみ要因を補正するには十分ではない. この問題を解決するため, 話者ごとにかつ音声/非音声で別々に求めたCMを入力ケプストラムから減じる, 新しい方法E-CMNを提案する. この方法は, さまざまな乗法性ひずみを一括して補正し, 入力スペクトルを正規化することが可能である. 更に, 加法性雑音と乗法性ひずみのある実環境に対応するため, E-CMNとHMM合成法を組み合わせた, 新しいモデル適応化手法E-CMN/PMCを提案する. 本方法は, 加法性雑音モデルに対する音声モデルの周波数帯域ごとのゲイン, すなわち, 乗法性ひずみをE-CMNにより音声のCMとして一意に推定できるため, 音声モデルと雑音モデルを繰返し計算なしに加算できるという意味で簡便な方法である. 最後に, E-CMN/PMCの自動車環境内での性能を評価する.
著者
西村 竜一 内田 賢志 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.522, pp.93-98, 2001-12-13
被引用文献数
5

ASKA(アスカ)は, 大学の受付案内システムを目標として開発中の頭部や腕のジェスチャ機能を持つ人間型音声対話ロボットである.音声対話機能は, 大語彙連続音声認識エンジンJuliusと学内案内タスク向けN-gram言語モデルを基礎としたキーワード検索による音声認識理解部と音声合成部によって構成されており, 対人センサやジェスチャ生成などの他のモジュールと状態を通信しながら分散的な動作を行なう.本ロボットは, 奈良先端大における学内共同プロジェクトで開発されており, エージェントシステムにおける様々な要素技術の実環境での検証プラットフォームと位置付けられている.今後も新たな要素技術を採り入れながら開発を続ける予定である.本稿では, 音声対話機能の実装方法を中心に現在のASKAの概要および今後の予定について述べる.
著者
長友 健太郎 西村 竜一 小松 久美子 黒田 由香 李晃伸 猿渡 洋 鹿野 清宏
出版者
電子情報通信学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.9, pp.2884-2893, 2002-09-15
参考文献数
15
被引用文献数
23

高精度な言語モデルの融合手法として,相補的バックオフアルゴリズムに基づく融合アルゴリズムを提案するとともに,それを用いた言語モデルの融合ツールを構築した.N-gram言語モデルは,学習元のコーパスの話題や知識,語調や発話様式などの特徴を反映する.そのため,タスクごとの特徴を反映した複数の言語モデルを融合することで,より多様な入力に対処できるモデルを構築できる.この言語モデルの融合において,既存の融合手法では,モデルの持つ特性が損なわれるためタスクに対する特徴がぼやけてしまう.また,従来手法である学習元コーパスの単純な結合および再学習による融合を行うためには,学習元のコーパス自体が必要になる.これに対して,他方のモデルには現れない未観測N-gramの生起確率を他方のモデルから相互に推定する高精度な相補的バックオフアルゴリズムを提案する.さらに本手法を用いて,学習元コーパスが不要で利便性の高い言語モデル融合ツールを構築した.実際に医療相談,グルメ・レシピ検索および新聞記事の各タスクの言語モデルを融合し,それらを評価した結果,各モデルの特性をなるべく保存しながら,コーパス結合モデルと比較しても精度が劣化しないモデルを得ることができた.A new complemental back-off algorithm for merging two N-gram languagemodels is proposed. By merging several topic-dependent orstyle-dependent models, we can construct a general model that coverswider range of topics easily. However, a conventional method thatsimply concatenates the training corpora or interpolating eachprobabilities often levels off the task-dependent characteristics in each languagemodels, and weaken the linguistic constraint in total. We propose anew back-off scheme that assigns the unseen N-gram probabilitiesaccording to the probabilities of the another model. It can assignmore reliable probabilities to the unseen N-grams, and no originalcorpora is needed for the merging. We implemented a command tool thatrealizes this method, and evaluated it on three recognition tasks(medical consulting, food recipe query and newspaper article). The results reveal that our merged model can keep the same accuracy of each original one.
著者
山田 智一 松永 昭一 川端 豪 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. A, 基礎・境界 (ISSN:09135707)
巻号頁・発行日
vol.77, no.2, pp.198-205, 1994-02-25
被引用文献数
19

仮名・漢字の文字連鎖確率に基づく統計的言語モデルを利用した日本語Dictationシステムについて述べる.日本語の統計的言語モデルとして,仮名・漢字の文字連鎖確率(次に出現する文字の,既に出現した2文字による条件付き確率)に基づくモデルを利用した方が,従来の音韻や音節の連鎖確率に基づくモデルよりも有効であることを,パープレキシティ(情報論的な意味での平均分枝数)に基づいて検討する.更に,仮名・漢字連鎖のモデルを用いた日本語Dictationシステムを構築し,(1)仮名・漢字連鎖確率のみによるモデルを利用した場合,(2)(1)モデルと読みの辞書を用いて,出力された漢字仮名混じり系列に対する読みを考慮した場合,(3)あらかじめ読みを考慮して作成した,仮名・漢字連鎖確率によるモデルを用いた場合について,パープレキシティとシステムの文字変換率(正解表記に用いられる文字を,出力文字系列がいくつ含んでいるか),文節変換率(出力文字系列がすべて正しく,かつその読みも正しいものの割合)で比較・検討する.国際会議の問合せに関するタスクにおいて,特定話者1名による,語いの仮定なしでの274文節の変換実験に対し,(3)の場合に,文節変換率65.0%,文字変換率79.0%を達成した.
著者
小窪 浩明 畑岡 信夫 李晃伸 河原 達也 鹿野 清宏
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.11, pp.2597-2606, 2009-11-15
被引用文献数
1

PC向け連続音声認識プログラムJuliusのSuperHマイコン(SH-4A)への搭載に関して行った処理の高速化と,評価実験について報告する.計算リソースの限られたマイコン上で動作させるため,仮説探索時のメモリ管理の最適化や音響尤度計算の高速化を実施した.語彙数5,000語での評価実験では,最適化前のJuliusの実行速度に対して3.7倍の高速化を実現し,SH-4A上での実時間動作を達成した.また,語彙数20,000単語での評価でも実時間の1.25倍で動作すること確認した.最後に,応用アプリケーションとしてT-Engine上に実装した質問応答システムについて報告する.To expand CSR (continuous speech recognition) software to the mobile environmental use, we have developed embedded version of Julius (Embedded Julius). In this paper, we describe an implementation of the "Embedded Julius" on a SH-4A microprocessor. SH-4A is a high-end MPU with on-chip FPU. However, further computational reduction is necessary for the CSR software to operate real-time. Applying some optimizations (efficient memory management, modified GMS), the "Embedded Julius" achieves real-time processing on the SH-4A. The experimental results show 0.73 x real-time, resulting 3.7 times faster than baseline CSR. We also evaluated the "Embedded Julius" on a large vocabulary task (20,000 words). It shows almost real-time processing (1.25 x RT). Finally, We introduced Q & A guidance systems developed for embedded applications.
著者
李 晃伸 河原 達也 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
巻号頁・発行日
vol.49, pp.281-286, 2003-12-18
参考文献数
15
被引用文献数
7

音声認識システムにおいて,認識結果に対して事後確率などを用いて信頼度を付与することで,発話検証や対話管理などの音声アプリケーションにおいて認識誤りを考慮したより高度な処理を行うことができる.この単語の事後確率を用いた信頼度算出では,通常,認識処理(デコーディング)の結果得られた仮説群のゆう度をもとに計算されるが,十分な精度の確信度を得るためにはN-best候補で数百以上の大量の文仮説を求める必要があり,多くの計算量を必要とする.本研究では,2パストリートレリス探索に基づくデコーディングにおいて,探索中に得られる部分文仮説の尤度から単語の信頼度を簡易かつ高速に算出するアルゴリズムを提案する.後段パスのスタックデコーディングにおける単語仮説展開時に,その次単語仮説の集合およびそれぞれから展開される新たな仮説のヒューリスティックを含む尤度から,その展開単語の事後確率を計算する.通常のデコーディング処理に対して極めて少ない計算量で信頼度を計算できる.認識エンジンJuliusにおいて,N-best候補から事後確率を算出する従来手法との比較を行った結果,提案手法は大量のN-best候補を求める必要がないことから認識処理全体を非常に高速に行え,また信頼度の精度も,簡易な計算法ながらN-best候補を用いる手法と同等以上の信頼度を算出できることが示された.
著者
三宅 純平 竹内 翔大 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.422, pp.1-6, 2009-01-22
被引用文献数
2

本論文では,ユーザの手動登録に依存しない流行語・新語などに対する自動読み付与の手法を提案する.音声認識の大きな課題として,未知語処理が挙げられる.特に,流行語・新語は正しい読みが得られず,未知語として扱われることが多い.近年,流行語などの読み訂正処理として,「はてな」のようなキーワードと読みがペアで登録されている集合知サイトを利用した読み付与による音声認識辞書の修正が提案されている.しかしながら,集合知サイトに基づく読み付与は,匿名ユーザの手動による登録に強く依存しているため,迅速な読みの登録やその読みの正しさが保証されないという問題がある.そこで,括弧表現に基づくWebテキストマイニングによる読みの自動抽出及び,その読みの信頼度計算を行なうことで,ユーザによる登録に非依存な自動読み付与の手法の提案を行なう.評価実験では,従来手法である「はてな」を用いた読み付与と提案手法との読み付与との性能比較を行い,提案手法は従来手法と同等またはそれ以上の性能を得ることができた.特に一般性が著しく改善された.
著者
坂野 秀樹 武田 一哉 鹿野 清宏 板倉 文忠
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌A (ISSN:09135707)
巻号頁・発行日
vol.J81-A, no.2, pp.261-268, 1998-02

スペクトル包絡と音源の独立操作により, ある話者の音声を別の話者へと連続的に変化させる音声モーフィングを提案する.本手法では次の手順で音声モーフィングを実現する.1)時間領域におけるDPマッチングにより単位波形の対応をとる.2)単位波形をスペクトル包絡と音源に分離する.3)周波数領域のDPマッチングにより周波数軸を非線形に伸縮し, スペクトル包絡間の対応付けを行う.4)スペクトル包絡および音源の補間を行う.5)位相情報を付与し, 単位波形を得る.6)PSOLA法により合成する.この手法を用いることによって自然音声の時間的変化に比較的近い補間が可能となり, 音声の調音結合部分をモーフィングにより生成する実験を行った結果, ケプストラム距離において従来法に比べ1.9dBひずみを減少させることができた.また, 対比較試験では男性から女性へのモーフィングにおいて89%, 女性から男性へのモーフィングでは93%の割合で本手法の方が品質が良いと判断されており, 本手法の有効性が示された.