著者
藤原弘将 後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.81, pp.27-32, 2007-08-01
被引用文献数
3

ボーカルの声質の類似度に基づく楽曲検索システムを開発した.本システムは,クエリとして与えられた楽曲と類似した声質を持つ楽曲を予め登録したデータベース中から検索する.本システムを実現するために,伴奏を含む音響信号中から伴奏音の影響を低減させ歌声の特性を表現する特徴ベクトルを抽出する手法と,相互情報量を用いて2つの特徴ベクトル列間の類似度を計算する手法を開発した.本システムを実装し,75曲をデータベースに登録し運用することで,システムが正しく動作することを確認した.さらに,被験者実験の結果,被験者の80%の回答が,従来のMFCCなどを用いた手法と比較して,提案手法によりボーカルの声質が類似した楽曲を検索出来ていると回答した.We developed a music information retrieval system based on singing voice timbre,i.e., a system that can search for songs in a database that have similar vocal timbres. To achieve this, we developed a method for extracting feature vectors that represent characteristics of singing voices and calculating the vocal-timbre similarity between two songs by using a mutual information content of their feature vectors. We operated the system using 75 songs and confirmed that the system worked appropriately. According to the results of a subjective experiment, 80% of subjects judged that compared with a conventional method using MFCC, our method finds more appropriate songs that have similar vocal timbres.
著者
後藤 真孝 吉井 和佳 藤原弘将 Matthias Mauch 中野 倫靖
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1363-1372, 2013-04-15

本論文では,音楽音響信号理解技術によって音楽の聴き方をより豊かにするための能動的音楽鑑賞サービスSongleについて述べる.従来,研究開発段階の音楽インタフェースや技術を,日常生活で人々に使ってもらうのは容易でなかった.Songleでは,Web上で人々に能動的音楽鑑賞インタフェースを体験してもらうことで,音楽鑑賞がより能動的で豊かになる質的な変化を日常生活で起こすことを目指す.そして,Web上の任意の楽曲に対して楽曲構造,階層的なビート構造,メロディライン,コードの4種類の音楽情景記述を自動推定して可視化することで,それを見て再生したユーザの音楽理解が深まることを可能にする.しかし,自動推定では誤りが不可避である.そこで効率的な誤り訂正インタフェースをWeb上で提供し,誤りを人手で自発的に訂正する貢献を促す.そうした不特定多数による訂正がユーザ体験の改善に結び付くことで,Songleのさらなる利用を促していく.
著者
藤原弘将 後藤 真孝 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.51, no.10, pp.1995-2006, 2010-10-15

本論文では,歌声の基本周波数(F0)と母音音素を同時に推定可能な新たな手法について述べる.本手法は,F0と母音音素だけでなく,歌手名や性別などの要素も同時に推定できるように設計されているため,混合音中の歌声を認識するための新たなフレームワークと考えることができる.本手法は,歌声とその他の伴奏音が混ざった状態を,歌声を分離するのではなく,そのままの形で統計的にモデル化する.また,信頼性の高い歌声のスペクトル包絡を推定するために,様々なF0を持つ複数の音の調波構造を使用する.F0と母音音素の同時推定を,ポピュラー音楽6歌手10曲で評価した結果,提案法によりF0推定の性能が平均3.7ポイント,音素推定の性能が平均6.2ポイント向上することを確認した.A novel method is described that can be used to concurrently recognize the fundamental frequency (F0) and vowel phoneme of a singing voice (vocal) in polyphonic music. This method can be considered as a new framework for recognizing a singing voice in polyphonic music because it is designed to concurrently recognize other elements of a singing voice including singer's name and gender, though this paper focuses on the F0 and vowel phoneme. Our method stochastically models a mixture of a singing voice and other instrumental sounds without segregating the singing voice. It can also estimate a reliable spectral envelope by estimating it from the harmonic structure of many voices with various F0s. The experimental results of F0 and phoneme recognition with 10 popular-music songs by 6 singers showed that our method improves the recognition accuracy by 3.7 points for F0 estimation and 6.2 points for the phoneme recognition.
著者
藤原弘将 後藤 真孝 緒方 淳 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.37-44, 2006-08-07

本稿では,伴奏音を含む音楽音響信号と対応する歌詞の時間的な対応付け手法について述べる.クリーンな音声信号とその発話内容の時間的対応付けを推定をするViterbi アラインメント手法はこれまでも存在したが,歌声と同時に演奏される伴奏音の悪影響で市販 CD 中の歌声には適用できなかった.本稿では,この問題を解決するため,歌声の調波構造を抽出・再合成することで混合音中の歌声を分離する手法,歌声・非歌声状態を行き来する隠れマルコフモデル (HMM)を用いた歌声区間検出手法,音響モデルを分離歌声に適応させることで Viterbi アラインメントを適用する手法を提案する.日本語のポピュラー音楽を用いた評価実験を行い,本手法により10曲中8曲について十分な精度で音楽と歌詞の対応付けが出来ることを確かめた.This paper describes a method that can automatically synchronize between polyphonic musical audio signals and corresponding lyrics. Although there were methods that can synchronize between monophonic speech signals and corresponding text transcriptions by using Viterbi alignment techniques, they cannot be applied to vocals in CD recordings because accompaniment sounds often overlap with vocals. To align lyrics with such vocals, we therefore developed three methods: a method for segregating vocals from polyphonic sound mixtures by extracting and resynthesizing the vocal melody, a method for detecting vocal sections using a Hidden Markov Model (HMM) that transitions back and forth between vocal and non-vocal state, and a method for adapting a speech-recognizer phone model to segregated vocal signals. Experimental results for 10 Japanese popular-music songs showed that our system can synchronize between music and lyrics with satisfactory accuracy for 8 songs.