著者
甲斐 充彦 廣瀬 良文 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.4, pp.1383-1394, 1999-04-15
被引用文献数
39

対話音声認識システムや大語彙のディクテーションシステムにおいては システムの辞書に登録されていない未知語や 間投詞・言い直し・言い淀みなどのユーザの要求に関係のない冗長語の扱いが重要である. このような問題に対処するために 本研究では単語N-gram言語モデルを用いた連続音声認識アルゴリズムにおいて 未知語処理を導入してその効果を調べた. 未知語処理法として サブワード単位の音響モデルを用いたサブワード系列デコーダを併用し これによって未知語候補の生成と検証を行う方法を用いる. この方法は 以前に文脈自由文法を用いたシステムにおいて有効性を確かめている. 本論文では この方法に基づいて 単語N-gramベースの認識アルゴリズムに未知語処理を効率的に導入する方法を提案している. 音声対話システムのタスクにおいて 未知語や冗長語を含む発話を用いて評価実験を行った結果 意味的な誤りが最大で48%減少した. また 文脈自由文法に基づく同様なシステムと比較した結果 意味理解精度の向上に効果があることが分がった. さらに 大語彙連続音声認識タスクにおける効果を確かめるため 新聞記事の読み上げ音声を用いた評価実験を行った結果 単語単位での認識精度の改善は小さいが 文レベルでの高い未知語検出性能が示された.For practical use of spoken dialog systems and dictation systems, it is important to cope with out-of-vocabulary words and filled pauses including the phenomena such as interjection, restart and hesitation. To address these problems, this study tries to use an unknown-word processing (UWP) method for a word N-gram language model based continuous speech recognition system. We investigate an UWP method which employs a subword sequence decoder with subword acoustic models to produce unknown-word hypotheses. This method has been shown to be effective on a small vocabulary task tested with a context-free grammar-based recognition system. This paper proposes an efficient method for incorporating the UWP into a word N-gram language model-based recognition system. We performed a series of experiments to show the effectiveness of the method for spoken dialog tasks and a dictation task. The experimental results show that a semantic accuracy was improved by 48% using the UWP method. Also, in compared with the result of a system using context-free grammar, the word N-gram based system could further improve the semantic accuracy for spontaneous speech. Furthermore, We performed are cognition experiment for a large-vocabulary dictation task. As a result, although only a slight improvement was observed in terms of the word accuracy, the high performance for detecting the existence of unknown-word in an utterance could be achieved.
著者
加藤 弓子 廣瀬 良文 釜井 孝浩
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.282, pp.13-18, 2007-10-18
参考文献数
12
被引用文献数
2

感情音声に特徴的な声質のうち,「激怒」や「明るく元気」といった力の入った発話スタイル中に局所的に見られる「荒れた力み声」(pressed harsh voice)に着目し,その出現位置について音韻,基本周波数,アクセント句内の位置等の言語情報との関係について検討した.その結果,当該モーラの子音および母音,アクセント句内のモーラ位置,アクセント位置,フレーズ内のモーラ位置が「荒れた力み声」の発生頻度に関与する可能性が示された.さらに,数量化II類を用いて音韻と言語情報より発話中の「荒れた力み声」の発生位置を予測し,音声合成時に特徴的声質を利用して感情表現を制御する可能性を検討した.