著者
川井 大陸 山本 一公 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2014, no.2, pp.1-6, 2014-12-08

歌声の自動歌詞認識の第一段階として,本稿では伴奏なし日本語歌唱の自動歌詞認識を行う.このために歌声に適応した言語モデル,音響モデル,発音辞書を使うことで伴奏なし独唱の自動歌詞認識を検討する.言語モデルには歌詞をうまく捉えるために歌詞コーパスで学習した単語 N グラム言語モデルを使用した.音響モデルの学習には,歌声データ不足を補うため少量の歌声データを用いて 2 種類の適応化をした.1 つ目は MAP 適応による音響モデルの適応学習である.MAP 適応では 40 名 40 曲の歌声データを使う方法と,1 曲の話者適応データを使う方法を試みた.2 つ目は朗読 MFCC と歌声 MFCC のペアを使って学習したニューラルネットワークによる特徴変換である.歌声で頻繁に表れる 「伸ばす音」 に対処するため,発音辞書のバリエーションを増やした.性能評価には,事前に伴奏音を除去した JPOP 男性 7 名 7 曲の楽曲を用いる.実験の結果,提案システムは音節認識精度 46.1% (音素認識精度 59.0%),単語認識精度 25.9% を示し,新聞言語モデルと話し声音響モデルに基づく従来のシステムより良い性能を示した.As a first step, we consider Japanese lyrics recognition in monophonic singing that contains no musical instruments. To express singing well, we attempt to use an n-gram language model using a lyrics corpus, singing-adapted GMM-HMM-based acoustic models and plural pronunciation lexicons for vowel-lengthening. We attempted to adapt the read-speech AMs to sung-speech AMs using two approaches. One is MAP adaptation and the other is neural network-based feature transformation. For adapting to singing, we use 40 pieces of music sung by 40 male singers. For adapting to speaker, we use a piece of music sung by a male singer who is the same speaker as a singer of a test data. To deal with the property of singing offten involving lengthening the duration of each vowel, we augment the pronunciation variations. Evaluation is performed on a test set that contains 7 pieces of commercial music sung by 7 male singers. As a result of experiments, our system showed syllable accuracy of 46.1% (phoneme accuracy of 59.0%) and word accuracy of 25.9% in male monophonic Japanese singing. This result showed higher accuracy than a conventional system based on the newspaper LM and the read-speech AM.