著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.23, pp.1-7, 2013-08-24

本稿では、複数の歌声から得られる音響特徴量をトピックモデルによって分析することで、歌声の特性を説明する新しい手法を提案する。従来、歌手の特性 (性別や声種等)、歌い方の特性 (声区やF0軌跡のモデル化等)、聴取印象 (明るさ等)、楽曲の特性 (楽曲ジャンルや歌詞等) を分析・推定したりする研究はあったが、複数の歌声から分かるような潜在的な意味を分析する研究はなかった。本稿では、伴奏と歌声を含む音楽音響信号から、歌声の線形予測メルケプストラム係数 (LPMCC) と ΔF0 を特徴量として自動推定した後、潜在的ディリクレ配分法 (LDA) で分析を行う。LDA によって得られた潜在意味 (トピック) の混合比が歌手名同定にも適用可能であることを示し、声道長の正規化に相当する処理を導入することで、性別を超えた類似歌手検索を実現することも示す。また、トピックの混合比を用いて、各トピックにおいて支配的な曲の歌手名をタグクラウドのように提示することで、トピックや歌声の意味を可視化する方法を提案する。
著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.2, pp.1-7, 2014-08-18

本稿では、歌声と伴奏を含む音楽音響信号を対象として、「ボーカルの歌声」、「楽曲中の音色」、「リズム」、「和音進行」 の確率的生成モデルを構築し、モデルからの生成確率を計算することで、「楽曲間の類似度」 や 「楽曲のありがち度」 を推定する手法を提案する。歌声、音色、リズムに関しては、LPMCC、MFCC、Fluctuation Pattern に基づく音響特徴量を抽出し、それぞれに関して潜在的ディリクレ配分法 (LDA) を用いたトピック分析を行う。個々の楽曲毎に学習したモデルと全曲から学習したモデルから、楽曲における各音響特徴量の生成確率を計算することで、それぞれ楽曲間の類似度とありがち度を推定した。和音進行に関しては、能動的音楽鑑賞サービス Songle のコード認識結果に対し、可変長 Pitman-Yor 言語モデル (VPYLM) でモデル化した。ここでは、個々の楽曲毎に学習したモデルと全曲で学習したモデルから、各曲のパープレキシティの逆数 (各和音の平均的な生成確率) を計算することで、それぞれ類似度とありがち度として推定した。本稿では、ポピュラー音楽 3278 曲を対象として分析した結果を報告する。
著者
吉井和佳 糸山克寿 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.9, pp.1-8, 2014-08-18

本稿では,多数の楽器音が重畳している音楽音響信号を,音の三要素である音高 (基本周波数)・音色 (スペクトル包絡)・音量に分解するための確率的ソース・フィルタモデルについて述べる.ソース・フィルタ理論は楽器音分析に広く利用されており,楽器音のフーリエ変換スペクトルは,音源信号の基本周波数に起因するスペクトル微細構造と楽器音の音色を表すスペクトル包絡との積に分解される.このとき,スペクトル包絡が全極型モデルで表現できると仮定すると,理論的には線形予測分析 (LPC) を用いて,線形周波数領域でスペクトル包絡を推定することができる.しかし,実際には,調波構造のピークのみがスペクトル包絡からの信頼できるサンプルであるとみなせるため,スペクトル包絡推定に全周波数帯域を利用することは適切ではない.この問題の解決法のひとつに離散全極型モデルが知られているが,多重音に対して適用することはできなかった.本研究では,離散全極型モデルを LPC の多重音拡張である複合自己回帰モデルの枠組みに組み入れることで,調波構造が複数重畳した音響信号を扱うことができる無限重畳離散全極型モデルを提案する.本モデルは,人間の聴覚特性に則した対数周波数領域で定式化されるノンパラメトリックベイズモデルであり,適切な個数のスペクトル包絡とそこからサンプルされた適切な個数の調波構造を推定することができる.実験の結果,提案手法の有効性を確認した.
著者
池宮由楽 糸山克寿 吉井和佳 奥乃博
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-104, no.23, pp.1-6, 2014-08-18

本稿では,音楽音響信号に含まれる歌声の基本周波数 (F0) 軌跡に対して歌唱表現 (ビブラート・グリッサンド・こぶし) を転写することを可能とするシステムを提案する.能動的音楽鑑賞インタフェースは,エンドユーザのインタラクティブな音楽鑑賞を実現することを目的とした研究アプローチである.これには既存楽曲の加工支援も含まれ,歌声に関連するものでは,声質変換や歌声分離などの研究がなされている.本研究では,歌唱の歌い回しの加工を扱い,特に混合音中の歌声の F0 軌跡を任意に編集するインタフェースを実現する.ユーザは,歌声の任意の箇所を指定し,好みの歌唱表現を転写することで,歌い回しを自由に加工することができる.また,事前に市販楽曲からプロ歌手の歌唱表現を蓄積したデータベースを作成し,ユーザはそのデータベースから歌唱表現を参照することで直感的に転写を行うことが可能となる.歌唱表現の転写は,対数周波数軸において選択的に歌声のスペクトルのみをシフトさせ,伴奏音への影響を抑圧しながら歌声の音高を操作することで行われる.このとき,音韻性を保持するためスペクトル包絡を用いて音色の補正を行う.実際にユーザが表現の転写箇所を指定したり,F0 の存在範囲を提示するため,Graphical User Interface (GUI) の作成を行っている.実験では,音色補正の有効性やユーザ入力を用いた F0 推定の頑健性などを確認した.
著者
中村友彦 吉井和佳 後藤真孝 亀岡弘和
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.11, pp.1-6, 2014-08-18

本論文では,調波楽器音の周波数特性とドラムの音色を,音楽音響信号間で楽譜を用いずに置換するシステムを提案する.このシステムでは,まず置換元の音楽音響信号 (インプット) と置換先の音楽音響信号 (リファレンス) の振幅スペクトルをそれぞれ調波楽器音成分と打楽器音成分のスペクトルに分離し,それぞれの成分に対して独立に処理を行う.調波楽器音成分のスペクトルの周波数特性をスペクトルの山周辺と谷周辺を通る 2 つのスペクトル包絡によって特徴付け,インプットの調波楽器音成分の振幅スペクトルを,インプットとリファレンスの調波楽器音成分のスペクトル包絡が類似するように変形する.インプットとリファレンスの打楽器音成分のスペクトログラムは,各ドラム楽器毎のスペクトログラムに分離した後,ユーザによって指定されたインプットのドラム楽器の音色をリファレンスのドラム楽器の音色に置換する.主観評価実験により,提案するシステムが周波数特性とドラムの音色を適切に置換できることを確認した.