著者
佐々木 浩 中野 鐵兵 緒方 淳 後藤 真孝 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.10, pp.57-62, 2009-01-30
被引用文献数
3

ポッドキャストの音声認識における言語モデルの適応手法を提案する.ポッドキャストは,幅広い話題,タスクの音声データが日々増え続けるという特徴を持っているため,言語モデルをいかにして学習,構築するかが認識性能を左右する大きなポイントとなる.本稿では,言語モデリングにおいて,あらかじめポッドキャストが持つメタ情報と「語彙情報サービス」を活用することで,ポッドキャスト音声認識の性能向上をはかる.具体的には,あらかじめ用意された言語モデリング用学習テキストを各テキスト毎に特徴語を抽出し,ポッドキャストのタイトルや概要などに記載された語との共起を基準にテキストの選択を行い,ポッドキャスト毎に特化された言語モデルの学習を行う.加えて,学習テキストやポッドキャストのメタ情報上の語の不足から生じる,テキスト選択の精度低下の問題を解決するため,語彙情報サービスのタグ情報を活用する.本手法で適応された言語モデルを実際に用いて,その性能を単語パープレキシティと未知語率で評価した結果,単語パープレキシティがベースラインの86%,未知語率もベースラインの80%となり,言語モデルの性能が改善されたことが確認された.This paper presents a language model adaptation method for automatic transcription of podcasts. Since podcasts include speech data that contains a variety of topics and many newly created words, well designed language models are indispensable to achieve sufficient speech recognition rate. In this paper, we propose a new topic dependent language modeling method by using meta information of podcasts and vocabulary information service. In this method, a large amount of training data are collected from the Internet such as web news and blogs on a daily basis. By using RSS texts of podcasts, topic dependent texts are selected from these training data, and proper language models are created for each podcast. In addition, we utilize the tag information of the vocabulary information service to solve the problem of the precision fall of the text choice that the lack of the word in a learning text and a meta information of Podcast cause. The assessment result showed that the performance of the language model using this method is improved because the word perplexity of the result using this method is 86% of that of the baseline and the out-of-vocabraly rate of the result using this method is 80% of that of the baseline.

言及状況

はてなブックマーク (2 users, 2 posts)

収集済み URL リスト