- 著者
-
鮫島 充
ランディゴメス
李晃伸
猿渡 洋
鹿野 清宏
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.47, no.7, pp.2295-2304, 2006-07-15
- 被引用文献数
-
2
子供の音声は,声道長や基本周波数が成人音声と異なるだけでなく,発声スタイルが自発的で年齢や個人による声の変動も大きいため,通常の成人用音韻モデルでは認識精度が著しく劣化する.また,子供が正確に文章を読み上げることは多大な労力が必要であり,大規模な整った音声データベースの作成が難しい.本研究では,子供の自発的な発話の高精度な認識を目指して,音声情報案内システムによる子供の実音声の大規模収集,年齢層別子供用音韻モデルの構築と評価,および教師なし話者適応の検討を行った.大語彙連続音声認識実験より,実環境で収集した子供音声を用いることで,単語認識精度が71.1%と既存の読み上げ音声モデルに比べて絶対値で23.9%の改善が得られた.また,年齢層別の傾向では,特に幼児の音声において年齢層依存モデルによる大幅な精度改善が見られた.次に,自動収集した話者ラベルなしの大量データに対する,自動話者クラスタリングを用いた十分統計量に基づく教師なし話者適応を提案した.提案法により59 966個の発話データをクラスタリングし,近傍話者クラスタを用いて音韻モデルを適応することで,クラスタ数200の条件において,年齢層依存モデルに対してさらに幼児で2.2%,低学年子供で1.7%,高学年子供で0.5%の認識性能の改善が得られた.Child's utterance has totally different property from adult's speech, not only by their acoustic property, but by their incorrect pronunciation and totally ill-formed speaking style. The rapid physiological changes during the growth also prevent accurate speech recognition using a single model. However, collection of child's read speech is difficult in natural, since forcing them to read a sentence precisely will make the utterances far from spontaneous one. In this research, we evaluated acoustic models and an unsupervised adaptation method based on a large number of real spontaneous child speech automatically collected through an actual spoken dialogue system. Acoustic model trained by an actual spontaneous speech achieves the word accuracy of 71.1%, which outperforms one trained by read speech by 23.9%. Detailed investigation is carried out for child's ages (infant pupils, lower-grade elementary schoolers and higher-grade elementary schoolers), and accuracy of the infant pupils was greatly improved by using the age-dependent model. Then a speaker clustering method is proposed to perform unsupervised speaker adaptation based on HMM Sufficient Statistics on automatically collected database where no user tag is available. Clustering the 59,966 utterances to 200 speaker clusters, and selecting the neighbor one for each input to construct the adapted model has resulted in a further improvement of recognition accuracy by 1.5% as compared with age-class dependent models.