著者
呉 益明 Tristan Carsault 中村 栄太 吉井 和佳
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2019-MUS-124, no.5, pp.1-6, 2019-08-20

本稿では,正解コードラベル付きの音楽音響信号 (教師ありデータ) に加えて,ラベルが付与されていない音響信号 (教師なしデータ) を同時に利用するための,深層ニューラルネットワーク (DNN) に基づくコード推定法について述べる.従来の DNN に基づく識別的アプローチは,大量の教師ありデータを用いることで優れた推定精度を達成できるが,コードラベルの付与には多大な労力が必要であり,精度向上には限界があった.一方,隠れマルコフモデルなどの確率モデルに基づく生成的アプローチは,原理的に半教師あり学習が可能であるものの,モデルの表現力の貧弱さから,推定精度の面で劣っていた.これらの問題を解決するため,本研究では,高い表現力を持つ DNN に基づく深層生成モデルと,償却型変分推論法に基づく半教師あり学習法を提案する.具体的には,まず,コードラベル系列と音響テクスチャ系列を潜在変数とし,音響的特徴量を観測変数とする生成モデルを定式化する.観測変数が与えられた際に,潜在変数の事後分布を推定するため,音響的特徴量からコードラベル系列を推定する識別モデルと,音響的特徴量とコードラベル系列から音響テクスチャ系列を抽出する推論モデルを導入する.与えられた音楽音響信号に対して,教師ラベルの有無に関わらず,変分自己符号化器の枠組みでこれら三つの深層モデルを同時最適化することができる.実験の結果,教師なしデータに対しても,コードラベル情報と音響テクスチャ情報が適切に分離された表現学習を行うことができること,半教師あり学習を行った識別モデルが,教師ありデータのみで学習した識別モデルよりも高い認識精度を実現できることを確認した.