- 著者
-
李晃伸
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
- 巻号頁・発行日
- vol.2007, no.129, pp.307-312, 2007-12-21
- 被引用文献数
-
7
1
大語彙連続音声認識エンジン Julius は 2007年 12月にバージョン ver. 4 がリリースされた.7年ぶりのメジャーバージョン更新となる ver. 4 では,内部構造のモジュール化およびソースの全面的な再構成が行われ,可搬性と柔軟性が大幅に向上された.その結果,エンジン本体がライブラリ化された他のアプリケーションに組み込めるようになったほか,コールバック・プラグイン等の外部との連携の仕組みが整備され,機能の拡張や構成の変更が容易に行えるようになった.言語モデルも単語 N-gram および文法を単一バイナリで同等に扱えるようになり Julian は Julius に統一された.さらに,複数の言語モデルと音響モデルを任意に組み合わせて,1エンジンで並列認識を行うマルチデコーディングも可能となった.また,基本性能についても拡張と強化が行われた.言語モデルとして孤立単語認識が新たに追加されたほか,4-gram 以上の任意長 N-gram への対応、ユーザ関数による外部言語制約の組込み、GMM-based VAD およびデコーダベース VAD、confusion network の生成など大幅な機能強化が行われた。性能は従来バージョンと同等を維持しており、かつメモリ量の削減も行われている。The new version 4.0 of large vocabulary continuous speech recognition engine "Julius" has been released at December 2007, as a major version up from version 3.0. An anatomical analysis and data stcuture re-organization has been accomplished for the whole codes to improve its modularity and flexibility. Its improved structure now enables Julius to be compiled as a external library to be incorpolated into various user applications. A simple callback API and plugin facilities are newly built to be controlled directly and lively from outer applications, which enables easy but tight integration with other applications. Also, grammar-based recognizer Julian has been incorpolated into Julius and the N-gram and grammar can be treated at the same executable. Furthermodre, It supports fully multi-decoding using multiple LMs, AMs and their arbitral combinations. It now supports long N-gram (N unlimited), user-defined LM function, GMM-based and a newly proposed decoder-based VAD, confusion network generation, and many other new functions. The memory requirement has also been improved, while keeping the same accuracy.