著者
糸山克寿 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告エンタテインメントコンピューティング(EC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.37, pp.81-88, 2007-05-11

CDなどの複雑な多重奏音楽音響信号中の調波構造を持つ楽器音と持たない楽器音を同時に分離するためのモデルの作成と,楽譜情報を事前情報として与えた場合の制約付きモデルパラメータ推定手法について述べる.調波構造の有無によって楽器音の性質は大きく異なるため,従来の手法ではこれらの音を排他的に扱うことしかできなかった.本稿では,調波構造と非調波のそれぞれを表現する2つのモデルを統合した新たな重み付き混合モデルにより,両者の統合的手法を開発した.モデルのパラメータは最大事後確率推定に基づくEMアルゴリズムを用いて推定する.さらに,モデルの過学習を防ぎ同一楽器内のパラメータ一貫性を維持するための制約条件も同時に用いる.ポピュラー音楽のSMFを用いた評価実験で,本手法によりSNRが1.5 dB向上することを確認した.This paper describes a sound source separation method for polyphonic sound mixtures of music including both harmonic and inharmonic sounds, and constrained parameter estimation using standard MIDI files as prior information. The difficulties in dealing with both types of sound together have not been addressed in most previous methods that have focused on either of the two types separately, because the properties of these sounds are quite different. We therefore developed an integrated weighted-mixture model consisting of both harmonic-structure and inharmonic tone models. On the basis of the MAP estimation using the EM algorithm, we estimated all model parameters of this integrated model under several original constraints for preventing over-training and maintaining intra-instrument consistency. We confirmed that the integrated model increased the SNR by 1.5 dB.
著者
大石康智 後藤 真孝 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.113, pp.3-8, 2006-10-27
被引用文献数
5

メロディを歌っても,曲名を読み上げても検索可能な楽曲検索システムを提案する.このシステムは,歌声と曲名の読み上げ音声(朗読音声)を自動識別するため,ユーザはシステムの入力モードを切り替えるのではなく,入力音声の発話様式を切り替えるだけで,シームレスに楽曲を検索することができる.これまでに我々が提案した音声識別器を実装し,歌声と識別されれば,ハミング検索手法によってメロディから曲を検索する.一方,朗読音声と識別されれば,音声認識によって書き起こされた曲名から曲を検索する.大規模な歌声データベースを利用して提案システムの評価実験を行った結果,歌声と朗読音声の自動識別性能は96.1%であった.さらに,検索キーのハミング検索,音声認識によって100曲中10位以内に正解の曲が含まれる平均検索率は,それぞれ50.5%と96.7%であった.We propose a music retrieval system that enables a user to retrieve a song by two different methods: by singing its melody or by saying its title. To allow the user to use those methods seamlessly without changing a voice input mode, a method of automatically discriminating between singing and speaking voices is indispensable. We therefore designed an automatic vocal style discriminator and built a music retrieval system that retrieves a song by query-by-humming for singing voice or by dictating the song title by automatic speech recognition (ASR) for speaking voice. Experimental results with a large music database built for singing research show that our system is able to discriminate between singing and speaking voices with 96.1%. The average retrieval rates of correct songs in the top 10 of 100 songs by query-by-humming and ASR for song titles are 50.5% and 96.7% respectively.