著者
大西 翼 ディクソン ポール 古井 貞煕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.103, pp.1-6, 2007-10-19
被引用文献数
7

本稿では、実用的な音声認識デコーダの実現に向けて東京工業大学で開発が行われている、WFST を利用した音声認識デコーダについて、概要とその性能について述べる。本デコーダでは、スケーラビリティを向上させるために、省メモリ化として on-the-fly 合成と disk-based search、高速化として、GPU を利用した音響尤度計算の実装が行われている。この他にも、実用化に向けた様々な機能が実装されている。これらについての詳細を述べる。また、WFST 音声認識で問題となるメモリ消費量の増大を解決するために、本デコーダで行われている省メモリ化について、CSJ を利用して性能評価を行った。その結果、on-the-fly 合成を行うことで最大で 60%以上のメモリ消費量の削減をまた disk-based search を行うことで最大で 60%以上のメモリ消費量の削減を確認した。さらに、これらのアプローチを組み合わせることで、すべての WFST を事前に合成した場合と比較して、80%程度のメモリ消費量の削減を確認した。これらの実験により、本デコーダの省メモリ化についてのアプローチの有効性を示した。This paper presents an overview of the Weighted Finite State Transducer (WFST) based speech decoder being developed at Tokyo Institute of Technology and illustrates the performance via evaluations on the Corpus of Spontaneous Japanese. The decoder has a rich feature set including on-the-fly composition, disk-based search and a new method for accelerating acoustic likelihood calculations using graphics hardware. To provide flexibility there is a highly configurable front-end, batch or live operating modes and lattice generation. Experiments were conducted to evaluate the memory consumption in various configurations. By using either on-the-fly composition or a disk-based search network a memory reduction of more than 60% was achieved. Furthermore, a combination of these techniques with additional factoring of the WFST reduced the memory consumption by over 80%.