- 著者
-
加藤 恒夫
黒岩 眞吾
清水 徹
樋口 宜男
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
- 巻号頁・発行日
- vol.100, no.136, pp.1-8, 2000-06-15
- 被引用文献数
-
6
話者クラスタリングは音響的に近い話者集合を作成する方法であり, 話者集合毎に音響モデルを学習することで特定の話者集合にチューニングされたモデルが得られる.従来の報告では少ない話者数(数十名から数百名)の音声を学習データとして用いているが, 多数話者の音声を学習データに用いれば, 1話者クラスタあたりのデータ量が増加しモデルパラメータの推定精度が向上すること, 任意の話者に近い話者集合の音響モデルを認識に利用できることにより認識性能の改善が期待できる.本稿では, 1, 000名規模の電話音声データベースを用いで話者クラスタリングを行い, 学習データの話者数の増加に伴い認識率が上昇することを確認した.また, 話者集合の作成が理想的に行われた場合の認識率を求めることを目的として, 従来の尤度に基づく方法に替えて, 認識対象の話者に対して高い認識率を与える話者のデータからモデルを学習したところ, 不特定話者モデルと特定話者モデルの性能差の約60%を改善可能であることがわかった.