著者
平井 俊男 岩橋 直人 樋口 宜男 匂坂 芳典
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.78, no.11, pp.1572-1580, 1995-11-25
被引用文献数
15

日本語合成音の自然性向上を目指して,音声の基本周波数(以下,F_0)制御のための規則を自動的に抽出する方法を提案した.本方法は,(1)十分な量の音声データのF_0時系列パターンを藤崎モデルによりパラメータ化し,(2)このパラメータの値を言語情報から推定する規則,すなわちF_0制御規則を統計分析手法により抽出する,という二つのステップからなる.この方法を話者1名による読上げ文200文に適用し,得られたF_0制御規則を解析することで,言語情報とパラメータ値との関係を導出した.その結果,(1)先行フレーズのモーラ数が少なくなるほど当該フレーズ指令は小さくなること,(2)アクセント句内の高く発音される部分のモーラ数が多くなるほどアクセント成分が小さくなるという関係があること,が明らかとなった.(2)の関係は,従来少数サンプルの分析結果で得られていた知見を詳細化したものとなっており,本手法によって妥当なF_0制御規則の抽出を自動的に行える可能性があることを示したものと考えられる.
著者
橋本 誠 樋口 宜男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.95, no.41, pp.1-8, 1995-05-18
被引用文献数
5

本稿では、話者選択と移動ベクトル場平滑化(VFS: Vector Field Smoothing method)による、声質変換を目的としたスペクトル写像法(SSVFS: spectral mapping using Speaker Selection and VFS)を提案した。本手法は、予め複数登録話者の音声データを準備しておき、次の3つのステップによりスペクトルの写像を行なう。(1)話者選択により、目標話者に最も近い登録話者を1名選択し、(2)VFSにより、選択された話者のスペクトルコードブックから目標話者空間への移動ベクトルを求め、(3)移動ベクトルを用いて、選択話者から目標話者へ、任意の発話内容のスペクトル写像を行なう。話者選択を用いることにより、比較的距離の近い話者間で写像が行なえるため写像による誤差を抑えることができ、またVFSを用いることにより、少ない学習データでスペクトル写像を行なうことが可能となる。本手法を、1単語のみの学習により、目標話者を男女各4名、評価音声を50単語として平均ケプストラム距離で評価した。また、目標話者男女各1名に対する聴取実験による評価も行なった。実験の結果、(1)変換音声と目標話者音声との平均ケプストラム距離は、選択話者音声と目標話者音声との距離よりも減少すること(全目標話者平均減少率:約24.5%、最大減少率:約40.7%)、(2)約66%の割合で変換音声が選択話者音声より目標話者音声に似ていると判定され、VFSを用いない場合より高い判定率を得ること、が明らかとなり、本手法の有効性が示された。
著者
内部 利明 黒岩 眞吾 樋口 宜男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.317, pp.1-8, 1998-10-15
被引用文献数
11

数字による個人の識別や確認の手法は、クレジット番号や暗証番号等、広く普及しており、音声を用いた話者照合においても数字を用いることは利用者にとっても自然であると考えられる。本稿では、電話回線経由で収集した連続数字発声を用い、隠れマルコフモデル(Hidden Markov Model ; HMM)による話者照合方式の検討を行う。まず話者モデルを学習する方法について検討し、各話者の数字モデルの学習方法を提案する。更に、この数字モデルを用いた話者照合方式を検討し、テキスト指定型およびテキスト依存型において話者照合性能を評価するとともに、音素モデルを用いた場合との性能比較を行う。
著者
加藤 恒夫 黒岩 眞吾 清水 徹 樋口 宜男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.136, pp.1-8, 2000-06-15
被引用文献数
6

話者クラスタリングは音響的に近い話者集合を作成する方法であり, 話者集合毎に音響モデルを学習することで特定の話者集合にチューニングされたモデルが得られる.従来の報告では少ない話者数(数十名から数百名)の音声を学習データとして用いているが, 多数話者の音声を学習データに用いれば, 1話者クラスタあたりのデータ量が増加しモデルパラメータの推定精度が向上すること, 任意の話者に近い話者集合の音響モデルを認識に利用できることにより認識性能の改善が期待できる.本稿では, 1, 000名規模の電話音声データベースを用いで話者クラスタリングを行い, 学習データの話者数の増加に伴い認識率が上昇することを確認した.また, 話者集合の作成が理想的に行われた場合の認識率を求めることを目的として, 従来の尤度に基づく方法に替えて, 認識対象の話者に対して高い認識率を与える話者のデータからモデルを学習したところ, 不特定話者モデルと特定話者モデルの性能差の約60%を改善可能であることがわかった.