著者
滝沢 力 平井 重行
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-142, no.55, pp.1-6, 2022-06-10

アニメや映画,ゲームなどの制作現場では,サウンドエンジニア・クリエイターが,経験や知識・技能により効果音を選定・収集・生成・編集している.最近は,プロ以外の人による作品制作は盛んに行われるが,効果音の選定や編集による表現は素人には容易ではない.ただ,オノマトペ(擬音語)として音声で音のニュアンスも含めた効果音を表現することはある程度可能である.そこで,本研究では,オノマトペ音声を用いた効果音合成手法の確立を目指す.特に,様々な種類やニュアンスの表現が含まれる爆発音に焦点を当て,その音響合成手法について取り組む.ここでは,映画やアニメーション等で利用される爆発音の音響データ多数と,それらを口頭でオノマトペとして発話した音声データ多数を用意した.そして,系列変換モデルである Transformer でメルスペクトログラム画像を学習し,爆発音合成(音声から効果音への変換)を試みた.本稿では,Transformer での学習およびメルスペクトログラムからの音響合成モデルの学習について述べ,現状で得られている生成結果について報告する.