著者
吉井和佳 糸山克寿 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.9, pp.1-8, 2014-08-18

本稿では,多数の楽器音が重畳している音楽音響信号を,音の三要素である音高 (基本周波数)・音色 (スペクトル包絡)・音量に分解するための確率的ソース・フィルタモデルについて述べる.ソース・フィルタ理論は楽器音分析に広く利用されており,楽器音のフーリエ変換スペクトルは,音源信号の基本周波数に起因するスペクトル微細構造と楽器音の音色を表すスペクトル包絡との積に分解される.このとき,スペクトル包絡が全極型モデルで表現できると仮定すると,理論的には線形予測分析 (LPC) を用いて,線形周波数領域でスペクトル包絡を推定することができる.しかし,実際には,調波構造のピークのみがスペクトル包絡からの信頼できるサンプルであるとみなせるため,スペクトル包絡推定に全周波数帯域を利用することは適切ではない.この問題の解決法のひとつに離散全極型モデルが知られているが,多重音に対して適用することはできなかった.本研究では,離散全極型モデルを LPC の多重音拡張である複合自己回帰モデルの枠組みに組み入れることで,調波構造が複数重畳した音響信号を扱うことができる無限重畳離散全極型モデルを提案する.本モデルは,人間の聴覚特性に則した対数周波数領域で定式化されるノンパラメトリックベイズモデルであり,適切な個数のスペクトル包絡とそこからサンプルされた適切な個数の調波構造を推定することができる.実験の結果,提案手法の有効性を確認した.
著者
矢澤一樹 糸山克寿 奥乃博
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.17, pp.1-6, 2013-08-24

本稿では,ギター演奏者の演奏支援をするために実際のギター演奏音から演奏者の習熟度に応じたタブ譜を自動生成する手法について述べる.具体的には,初級者向けには音符の欠落などを許容してでも演奏が容易なタブ譜を,上級者向けには音高を正確に再現するタブ譜を,それぞれ生成する.推定される運指の難易度は,音響再現度と運指容易度の相対的な重みをユーザー側で調整することによって変更可能である.本手法によって得られたタブ譜について音響再現度と運指容易度の両面から評価を行った結果,パラメータを変更することによって音高推定の適合率を保ったまま運指を簡略化できることが確認された.
著者
安部 武宏 糸山克寿 吉井 和佳 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.3, pp.1054-1066, 2009-03-15
被引用文献数
1

本稿では,ある音高を持つ楽器音をもとにして,音色の歪みを抑えながら任意の音高を持つ楽器音を合成する手法について述べる.我々は音色の聴感上の差に関する音響心理学的知見に基づき,楽器音のスペクトログラム上で観察される音色特徴量として,(i) 倍音ピーク間の相対強度,(ii) 非調波成分の分布,(iii) 時間方向の振幅エンベロープの3つを定義する.まず,もとになる楽器音の音色特徴量を分析するため,糸山らの調波·非調波統合モデルを用いて楽器音を調波構造と非調波構造に分離する.音高操作時には,特徴量(i),(ii) の音高依存性を考慮しなければならない.そのため,音高に対する特徴量を3次関数で近似し,所望の音高における特徴量の値を予測する.32種類の楽器に対して音高操作を試みたところ,音高依存性を考慮しない場合と比べて合成音と実際の楽器音との距離が,スペクトル距離尺度では64.70%,MFCC距離尺度では32.31%減少し,手法の有効性が確かめられた.This paper presents a synthesis method that can generate musical instrument sounds with arbitrary pitches from a given musical instrument sound while constraining distorting timbral characteristics. Based on the psychoacoustical knowledge on auditory effects of timbre, we define timbral features on the spectrogram of a musical instrument sound as (i) relative amplitudes of harmonic components, (ii) distribution of inharmonic components, and (iii) temporal envelopes of harmonic components. First, to analyze timbral features of a seed, it is separated into harmonic and inharmonic components by using Itoyama's integrated model. In pitch manipulation, it is necessary to take into account the relation of pitch and features (i) and (ii). Therefore, we predict the values of each feature by using a cubic polynomial that approximates the feature distribution over pitches. Experimental results showed the effectiveness of our method; the spectral and MFCC distances between synthesized sounds and real sounds of 32 instruments were reduced by 64.70% and 32.31%, respectively.
著者
池宮由楽 糸山克寿 吉井和佳 奥乃博
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-104, no.23, pp.1-6, 2014-08-18

本稿では,音楽音響信号に含まれる歌声の基本周波数 (F0) 軌跡に対して歌唱表現 (ビブラート・グリッサンド・こぶし) を転写することを可能とするシステムを提案する.能動的音楽鑑賞インタフェースは,エンドユーザのインタラクティブな音楽鑑賞を実現することを目的とした研究アプローチである.これには既存楽曲の加工支援も含まれ,歌声に関連するものでは,声質変換や歌声分離などの研究がなされている.本研究では,歌唱の歌い回しの加工を扱い,特に混合音中の歌声の F0 軌跡を任意に編集するインタフェースを実現する.ユーザは,歌声の任意の箇所を指定し,好みの歌唱表現を転写することで,歌い回しを自由に加工することができる.また,事前に市販楽曲からプロ歌手の歌唱表現を蓄積したデータベースを作成し,ユーザはそのデータベースから歌唱表現を参照することで直感的に転写を行うことが可能となる.歌唱表現の転写は,対数周波数軸において選択的に歌声のスペクトルのみをシフトさせ,伴奏音への影響を抑圧しながら歌声の音高を操作することで行われる.このとき,音韻性を保持するためスペクトル包絡を用いて音色の補正を行う.実際にユーザが表現の転写箇所を指定したり,F0 の存在範囲を提示するため,Graphical User Interface (GUI) の作成を行っている.実験では,音色補正の有効性やユーザ入力を用いた F0 推定の頑健性などを確認した.
著者
糸山克寿 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告エンタテインメントコンピューティング(EC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.37, pp.81-88, 2007-05-11

CDなどの複雑な多重奏音楽音響信号中の調波構造を持つ楽器音と持たない楽器音を同時に分離するためのモデルの作成と,楽譜情報を事前情報として与えた場合の制約付きモデルパラメータ推定手法について述べる.調波構造の有無によって楽器音の性質は大きく異なるため,従来の手法ではこれらの音を排他的に扱うことしかできなかった.本稿では,調波構造と非調波のそれぞれを表現する2つのモデルを統合した新たな重み付き混合モデルにより,両者の統合的手法を開発した.モデルのパラメータは最大事後確率推定に基づくEMアルゴリズムを用いて推定する.さらに,モデルの過学習を防ぎ同一楽器内のパラメータ一貫性を維持するための制約条件も同時に用いる.ポピュラー音楽のSMFを用いた評価実験で,本手法によりSNRが1.5 dB向上することを確認した.This paper describes a sound source separation method for polyphonic sound mixtures of music including both harmonic and inharmonic sounds, and constrained parameter estimation using standard MIDI files as prior information. The difficulties in dealing with both types of sound together have not been addressed in most previous methods that have focused on either of the two types separately, because the properties of these sounds are quite different. We therefore developed an integrated weighted-mixture model consisting of both harmonic-structure and inharmonic tone models. On the basis of the MAP estimation using the EM algorithm, we estimated all model parameters of this integrated model under several original constraints for preventing over-training and maintaining intra-instrument consistency. We confirmed that the integrated model increased the SNR by 1.5 dB.