著者
山本 一公 中村 哲 武田 一哉 黒岩 眞吾 北岡 教英 山田 武志 水町 光徳 西浦 敬信 藤本 雅清
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.75, pp.101-106, 2003-07-18
被引用文献数
26 4

本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,雑音 下音声認識評価用共通データベースAURORA-2Jと,その標準評価スクリプトによるベースライン評価結果について述べる.AURORA-2Jは,AURORAプロジェクトの AURORA-2データベースの日本語版として設計され,標準評価スクリプトも AURORA-2で配布されているスクリプトをベースとして開発されている.この共通 評価フレームワークにより,各機関における雑音環境下音声認識手法の性能を容 易に比較することが可能となり,雑音環境下音声認識手法の発展を促すことがで きると考えられる.また,自動車内における数字/コマンド発声データベースで あるAURORA-3Jの開発進捗状況についても述べる.This paper introduces a common database, an evaluation framework, and its baseline recognition result for noisy speech recognition, AURORA-2J, as an outcome of IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. AURORA-2J is designed as Japanized version of the AURORA-2 database and the evaluation framework is based on the AURORA-2 baseline scripts. This common evaluation framework enables to compare various noisy speech recognition techniques on a common ground. We hope more development of noisy speech recognition techniques using this evaluation framework. We also describe about AURORA-3J, digits and speech command database in car environments.
著者
川井 大陸 山本 一公 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2014, no.2, pp.1-6, 2014-12-08

歌声の自動歌詞認識の第一段階として,本稿では伴奏なし日本語歌唱の自動歌詞認識を行う.このために歌声に適応した言語モデル,音響モデル,発音辞書を使うことで伴奏なし独唱の自動歌詞認識を検討する.言語モデルには歌詞をうまく捉えるために歌詞コーパスで学習した単語 N グラム言語モデルを使用した.音響モデルの学習には,歌声データ不足を補うため少量の歌声データを用いて 2 種類の適応化をした.1 つ目は MAP 適応による音響モデルの適応学習である.MAP 適応では 40 名 40 曲の歌声データを使う方法と,1 曲の話者適応データを使う方法を試みた.2 つ目は朗読 MFCC と歌声 MFCC のペアを使って学習したニューラルネットワークによる特徴変換である.歌声で頻繁に表れる 「伸ばす音」 に対処するため,発音辞書のバリエーションを増やした.性能評価には,事前に伴奏音を除去した JPOP 男性 7 名 7 曲の楽曲を用いる.実験の結果,提案システムは音節認識精度 46.1% (音素認識精度 59.0%),単語認識精度 25.9% を示し,新聞言語モデルと話し声音響モデルに基づく従来のシステムより良い性能を示した.As a first step, we consider Japanese lyrics recognition in monophonic singing that contains no musical instruments. To express singing well, we attempt to use an n-gram language model using a lyrics corpus, singing-adapted GMM-HMM-based acoustic models and plural pronunciation lexicons for vowel-lengthening. We attempted to adapt the read-speech AMs to sung-speech AMs using two approaches. One is MAP adaptation and the other is neural network-based feature transformation. For adapting to singing, we use 40 pieces of music sung by 40 male singers. For adapting to speaker, we use a piece of music sung by a male singer who is the same speaker as a singer of a test data. To deal with the property of singing offten involving lengthening the duration of each vowel, we augment the pronunciation variations. Evaluation is performed on a test set that contains 7 pieces of commercial music sung by 7 male singers. As a result of experiments, our system showed syllable accuracy of 46.1% (phoneme accuracy of 59.0%) and word accuracy of 25.9% in male monophonic Japanese singing. This result showed higher accuracy than a conventional system based on the newspaper LM and the read-speech AM.
著者
中川 聖一 秋葉 友良 山本 一公 土屋 雅稔
出版者
豊橋技術科学大学
雑誌
基盤研究(B)
巻号頁・発行日
2010

音声認識の高精度化と音声認識結果の整形化、音声ドキュメントからの検索語の高速・高精度検索法の研究を行った。音声認識の高精度化に関しては、従来のHMMを越える新しい音声認識モデルを提案し、その有効性を示した。音声認識結果の整形に関しては、話し言葉音声の音声認識結果からの書き言葉への整形のための確率モデルを提案し、その有効性を示した。音声ドキュメントからの検索語の高速検出に関しては、音節のnグラムインデックスに基づく手法を提案し、その有効性を示した。