著者
李 晃伸 河原 達也 武田 一哉 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.12, pp.2517-2525, 2000-12-25
被引用文献数
47

大語彙(い)連続音声認識のための新たなphonetic tied-mixture(PTM)モデルを提案する.このモデルは各音素モデル(monophone)の各状態がもつ64個のガウス分布集合をtriphoneの対応する状態に割り当て, 重みのみを変えて共有することで合成する.通常の状態共有triphoneに比べて音響空間を効率良く表現でき, また巨大なコードブックを要する従来のtied-mixtureモデルよりも学習が容易である.2万語の新聞記事読み上げタスクにおいて評価した結果, triphoneでの最大性能に近い7.0%の単語誤り率をより少ないパラメータ数で達成した.処理効率の点においては, 音響スコア計算に用いるガウス分布を上位3%にまで削減しても精度がほとんど低下しなかった.いくつかのガウス分布の足切り計算(Gaussian pruning)手法を提案及び比較した結果, 最終的に音響ゆう度計算を約5分の1にまで削減できた.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

こんな論文どうですか? Phonetic Tied-Mixtureモデルを用いた大語彙連続音声認識(李 晃伸ほか),2000 http://t.co/FnWyEBht

収集済み URL リスト