著者
嵯峨山茂樹
雑誌
音声研究会資料
巻号頁・発行日
vol.79, pp.293-300, 1979
被引用文献数
1
著者
保利 武志 中村 和幸 嵯峨山 茂樹
雑誌
第79回全国大会講演論文集
巻号頁・発行日
vol.2017, no.1, pp.129-130, 2017-03-16

従来ヒューリスティックや感性情報を必要とした手法によって実現されていたジャズセッションシステムに対し、我々はこれまで統計的に学習可能な枠組みによるシステムの実現に向けた数理モデルや演奏の解析を行ってきた。また、その数理モデルの妥当性を実証するために、ピアノの演奏データを入力として、事例データからピアノ演奏にうまく調和するようなベースとドラムスの演奏を、NMFによるクラスタリングやtrigramによる時系列特性、ピアノとの共起関係を考慮して探索し合成して出力する手法を提案した。本研究ではこれをさらに発展させたHMMをベースとしたモデルに基づき、DNNによる楽器間の演奏特徴量の相関関係や時系列特性を考慮した編集合成を行う。
著者
長谷川 隆 西本 卓也 小野 順貴 嵯峨山 茂樹
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.53, no.3, pp.1204-1215, 2012-03-15

本論文では,音楽から受ける「作曲家らしさ」の印象を説明し定量的に測定できる工学的手法を目指して,音楽学における様式分析手法の1つであるラルーらの綜合的様式分析において論じられている様々な定性的特徴に対応する特徴量を提案する.対象データはMIDIデータとし,音の厚み等の音楽的な表現語の意味を解釈し,楽譜情報から計算可能な量を検討する.正準判別分析の作曲家推測精度を求めることにより,提案した特徴量群による特徴空間上で同作曲家の楽曲が近接して配置されていることが,判別分析結果の階層クラスタ分析により,時代・文化が類似していて類似した印象を受けると考えられる作曲家の特徴重心が近接して配置されていることが示された.以上から,提案した特徴群は「作曲家らしさ」の尺度として妥当性を持つと考えられる.The purpose of this paper is to establish technique to explain and measure "composer-characteristic" impression extracted from music. For that purpose, musical features are proposed by quantifying various qualities stated in Style Analysis by LaRue et al., one of musicological analysis methods. Input is assumed to be MIDI data, and measurable features from sheet music information are investigated by elucidating musicological descriptors such as "sound thickness". Composer discrimination accuracy evaluated with canonical discriminant analysis showed points of music by the same composer in the feature space of proposed features are placed nearby. In addition, the result of hierarchical cluster analysis showed centroids of similar composers with homogenous chronological and cultural backgrounds are also placed nearby. Therefore, the proposed features are presumed to be feasible for measuring "composer-characteristic" impression.
著者
松原 聖人 林 耕平 光本 大記 濱田 康弘 小野 順貴 嵯峨山 茂樹
雑誌
第78回全国大会講演論文集
巻号頁・発行日
vol.2016, no.1, pp.535-536, 2016-03-10

入力音声をケプストラム分析し、それによって取得した情報を基本周波数に関して操作したあと、パワースペクトルを経由して位相復元を用いて音声波形に戻すことによって、ピッチ変更などの変化を入力音声に与える。ケプストラムドメインで音声を加工することと、それを位相復元で音声波形領域に戻して可聴とすることの組み合わせによる音声加工法の提案である。
著者
林 耕平 高橋 登紀夫 永田 晃弘 嵯峨山 茂樹
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.45, pp.1-5, 2018-06-09

これまで,人間の演奏に自動伴奏付けを行う研究は広く行われてきたが,奏者は与えられた楽譜に従って演奏を行うという前提があった.そこで,本稿ではドラムスという楽器における,より即興的な演奏に対して自動伴奏付けを行う手法について議論する.まず,自由なドラムス演奏をリズムパターンの同期遷移や接続によって行われるものとして近似し,HMM (Hidden Markov Model) を用いてモデル化を行う.モデルの確率的な逆問題を解くことで,演奏のリズムパターンや演奏箇所の推定を行う.具体的には複数の尤度計算とテンポ推定を行い,Viterbi アルゴリズムによってモデルの最尤状態を推定する.また,ここまでの手法を評価するために実験を行い,高い精度で演奏箇所の推定が行われることを示す.更に,本稿では自動伴奏付けの構想についても述べる.
著者
小口 純矢 嵯峨山 茂樹
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2018-MUS-119, no.29, pp.1-4, 2018-06-09

本論文は,波形生成モデルである複合ウェーブレットボコーダのさらなる品質の向上を目指す.これまでに我々は,音声分析合成や HMM 音声合成系において,複合ウェーブレットボコーダの安定性を示してきた.ここで,さらに WORLD や STRAIGHT で用いられている非周期性指標のような,音声の準周期性を取り入れることができれば,有声摩擦音やかすれ声のように周期成分と非周期成分の両方を持つ音声を表現でき,高品質な音声を合成できると期待される.本論文では,複合ウェーブレットの基本波形を完全な周期ではなく Jitter を付与した準周期的なパルス列によって駆動させることで実現した.また,主観評価実験により,改良後の音声が改良前の音声より品質が有意に高いことを示した.
著者
ラチンスキスタニスワヴアンジェイ 小野 順貴 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.193-198, 2008-02-09
参考文献数
13

We propose a new approach for dealing with multipitch analysis of musical signals that makes use of the fact that such signals are highly structured. This structure comes from the many musicological rules of the western tonal music and we model it by using the recently developed method of Hierarchical Hidden Markov Models. We propose a model with four layers: song key chord and note combination layer. One of the big advantage of this approach is that besides from information about pitches we get higher level musical information about chord progression and key modulation.We propose a new approach for dealing with multipitch analysis of musical signals that makes use of the fact that such signals are highly structured. This structure comes from the many musicological rules of the western tonal music, and we model it by using the recently developed method of Hierarchical Hidden Markov Models. We propose a model with four layers: song, key, chord, and note combination layer. One of the big advantage of this approach is that, besides from information about pitches, we get higher level musical information about chord progression and key modulation.
著者
長谷川 隆 西本 卓也 小野 順貴 嵯峨山 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.53, no.3, pp.1204-1215, 2012-03-15

本論文では,音楽から受ける「作曲家らしさ」の印象を説明し定量的に測定できる工学的手法を目指して,音楽学における様式分析手法の1つであるラルーらの綜合的様式分析において論じられている様々な定性的特徴に対応する特徴量を提案する.対象データはMIDIデータとし,音の厚み等の音楽的な表現語の意味を解釈し,楽譜情報から計算可能な量を検討する.正準判別分析の作曲家推測精度を求めることにより,提案した特徴量群による特徴空間上で同作曲家の楽曲が近接して配置されていることが,判別分析結果の階層クラスタ分析により,時代・文化が類似していて類似した印象を受けると考えられる作曲家の特徴重心が近接して配置されていることが示された.以上から,提案した特徴群は「作曲家らしさ」の尺度として妥当性を持つと考えられる.
著者
中野 允裕 ルルージョナトン 亀岡 弘和 中村 友彦 小野 順貴 嵯峨山 茂樹
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2011, no.6, pp.1-8, 2011-07-20

本報告では,音楽信号のような多重音を解析するための手法として,Bayesian nonparametrics に基づく音響信号スペクトログラムのモデル化方法を提案し,その構成法と推論について議論する.近年,非負値行列分解に代表されるようなスパース表現基づく音楽信号のモデル化が盛んに研究されている.その中で解決すべき二つの問題が注目を集めている.一つ目は楽器音が時間変化する多様なスペクトルを持つ点であり,もう一点は観測信号中に含まれる音源の数が一般的には未知なことである.さらに,楽器音の多様なスペクトルは音源数の推定を困難にし,また逆に音源数が未知であることによって一音一音がどの程度多様なスペクトルを持つか推定することを困難にしている.本報告では,これら二つの課題を同時に解消するために,信号の重畳を表す非負値行列分解型のスパース表現と時系列パターンを表現する隠れマルコフモデルを Bayesian nonparametrics 上で融合させたスペクトログラムモデルを提案する.This paper presents a Bayesian nonparametric latent source discovery method for music signal analysis. Recently, the use of latent variable decompositions, especially nonnegative matrix factorization (NMF), has been a very active area of research. These methods are facing two, mutually dependent, problems: first, instrument sounds often exhibit time-varying spectra, and grasping this time-varying nature is an important factor to characterize the diversity of each instrument; moreover, in many cases we do not know in advance the number of sources. Conventional decompositions generally fail to cope with these issues as they suffer from the difficulties of automatically determining the number of sources and automatically grouping spectra into single events. We address both these problems by developing a Bayesian nonparametric fusion of NMF and hidden Markov model (HMM).
著者
石原達馬 吉里幸太 亀岡弘和 齋藤大輔 嵯峨山茂樹
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-99, no.20, pp.1-5, 2013-05-04

音声の基本周波数(F0)軌跡は,話者性,感情,意図など豊富な非言語情報・パラ言語情報が含まれることが知られており,その分析は重要な課題である.我々は基本周波数軌跡の数理的なモデルの一つである,藤崎モデルのパラメータの生成過程をHMMによりモデル化することで,実測F0軌跡から藤崎モデルのパラメータを推定する手法を開発してきた.本研究では,パラメータ推定精度の向上を目指して,藤崎モデルの指令列には典型的なパターン(テンプレート)が存在するという仮説に基づき,分析のための新しいHMMのトポロジーを提案する.定量評価実験により,モデルの持つテンプレート数に対する推定精度の変化を実験により確認した.
著者
金子 仁美 川上 大輔 嵯峨山 茂樹
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-85, no.7, pp.1-8, 2010-05-20

我々は,楽曲の和声解析の記述仕様 (“KS notation”) を策定し,機能和声解析を行ってデータを作成し,その統計解析を行った.和声推定は自動採譜や楽曲検索など多数の目的に有用で,その和声進行の確率モデルの作成と統計学習のために有用である.また,音楽学的な見地からは,和声学の規則や傾向などが計量的に検証でき,時代や作曲者や楽曲スタイルを和声学的に解明する基礎となろう.機能和声記述のために,和音,転回,借用和音,省略,変位,転調,付加音などの記述を可能とし,さらに楽譜なしで演奏が可能なように音価も表現した.また,人間とコンピュータ双方の可読性の両立させコンパクトに表現できるようにした.データ作成には,RWC 音楽データベース所収のクラシック曲 50 曲について,人手により機能和声解析してデータを作成した.そのデータを統計解析し,音楽的な知見から説明を試み,機能和声モデルが従来のモデルより工学的和声モデルとして優位であることを示す.
著者
武田 晴登 西本 卓也 篠田 浩一 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.48, pp.21-26, 2003-05-16
参考文献数
12
被引用文献数
4

多重音を含む楽曲の演奏のMIDI(Musical Instruments Digital Interface)信号からの自動採譜に確率モデルを用いる。MIDI信号を対象とした場合は演奏の音高情報は既知であるので、リズム推定が必要である。演奏の速度が一定である場合は量子化によるリズム推定が容易であるが、演奏中にテンポが変動する曲では難しい。我々は、多声部に跨るIOI(発音時刻の間隔)から得られる相対的な音長情報であるリズムベクトルを確率モデルの特微量とし、モデルのパラメータ値を楽譜や演奏から学習する。実際の採譜手順は、同時発音の検出の後にIOIの時系列を求め、HMM(隠れマルコフモデル)を用いてIOIの時系列から最適なリズム譜を推定し、そしてリズム譜をもとに各音価の推定する。5人の奏者による電子ピアノの演奏に対して性能評価実験を行い、音価復元率として「フーガ」に対して92.2%、「トロイメライ」に対して52.1%を得た。This paper proposes an automatic transcription method for polyphonic musical performances in MIDI signals. Pitches and rhythms are basic information which is necessary to write scores. From the MIDI signals of human performance, we just need to recognize rhythms from time information in MIDI signals because pitches are already known in MIDI signals. We propose a method on rhythm recognition, especially targeting at polyphonic music performances. In the proposed probabilistic models for rhythm recognition, we use rhythm vectors, which are obtained from IOI(Inter- Onset Interval) sequence across the multi voices, as a feature of probabilistic models. Thevalues of parameters in our model can be optimized by the learning from scores and human performances. In experiments on performances by 5 piano players with an electronic piano, we obtained score restoration rates of 92.2% for"Fuga"and 52.1% for "Traumerai".
著者
武田 晴登 西本 卓也 嵯峨山 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.237-247, 2007-01-15

本論文では人間の音楽演奏を記録したMIDI(Musical Instrument Digital Interface)信号から,演奏されたリズムとテンポを推定する手法を議論する.我々は,音楽演奏には次の2 つの傾向が見られることに注目して最も尤もらしいリズムとテンポを推定する.(1) 演奏されるテンポは時間について連続で滑らかに変動する.(2) 演奏される曲のリズムは典型的なリズムパターンの組合せで表現される.テンポ曲線を仮定したとき,HMM(Hidden Markov Model,隠れマルコフモデル)を用いて事後確率を増加させる音価列を推定することができる.また,リズムを仮定したとき,区分的に連続であるテンポ曲線を事後確率を増加させるように更新することもできる.本手法は,このようにリズムとテンポの推定を交互に行う反復アルゴリズムであり,適切な初期値から出発すれば,事後確率最大化の意味で最適解に収束し,さらにテンポが不連続な変化をともなう場合も扱うことができる.本手法を用いて,テンポが変動する人間の実演奏を記録したMIDI データ37 曲に対して,81.9~85.5%の音価正解率を得た. 付録:<a href="http://www.ipsj.or.jp/08editt/contents/JNL4801/index.html#23"target="_brank">http://www.ipsj.or.jp/08editt/contents/JNL4801/index.html#23</a>
著者
土屋政人 落合和樹 亀岡弘和 嵯峨山茂樹
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.281-282, 2013-03-06

自動採譜問題における発話時刻列から元の楽譜を推定するリズム解析の課題は,テンポと音価の間には無限の解釈が存在しうるという不良設定性の高い問題である.人間が音楽を聞く時にその楽譜を想像することができるのは、人間は音楽として常識的なリズムに関する知識を持っており,そういったトップダウンな情報と観測発話時刻列というボトムアップな情報の両側面から総合的に解釈を行っていると考えられる.そこで本研究ではこうした統合的なアプローチを計算機上で実現することを目指し,言語処理の手法をヒントに楽譜でよく使われる音符列を単語に模してモデル化を行い,楽譜を二次元木構造で表現することを試みた.
著者
米田 隆一 西本 卓也 嵯峨山 茂樹
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2005, no.129(2005-MUS-063), pp.31-36, 2005-12-23

本研究では、Standard MIDI File 楽譜等のシンボリックな音楽情報を入力として対旋律、和音、調等のラベルを付与する汎用的な手法を提案する。このような音楽のラベル付与問題は、音声認識における言語モデルとの類似性から、マルコフモデル、および生成モデルとしての HMM (hidden Markov models) を適用することが多かった。本研究でも確率モデルを踏襲するが、MIDI、楽譜などは、縦の和音、横の声部進行等、2次元的な情報であり、マルコフ連鎖のような一次元的なモデリングでは不十分である。このような背景のもと、より広いコンテキストを重視すべきであるという考えが生まれる。マルコフ確率場(Markov random field)モデルは、ノード間の関連をエッジであらわす一種の無向グラフモデルであり、エッジを設計することにより広いコンテキストを柔軟に設定できる。また、マルコフ確率場では我々の持つ音楽的知識を素性関数の設計(エッジの設計)という操作に還元することが可能、という利点を持つ。さらに、識別モデルであるという点でHMMとは異なり、可能なすべての出力系列を入力系列の条件付き確率として求めることができるという点で、条件付き確率場(conditional random fields)とも呼ばれる。本研究ではマルコフ確率場モデルに基いたさまざまな音楽情報処理に対するアプローチを論じる。本手法は汎用であり、応用範囲は多岐にわたるが、本稿では対旋律付け、和声付け、ドミナント定型句の同定、和声解析、調認識に対するアプローチを述べる。考えられる他の応用としては、リズム認識、楽曲のパージング、音楽情報検索など広範囲にわたる。
著者
川上 隆 中井 満 下平 博 嵯峨山 茂樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.99, no.627, pp.25-32, 2000-02-18
参考文献数
14
被引用文献数
2

本稿では、隠れマルコフモデル(HMM)を用いて与えられた旋律に自動で和声付けを行なう手法を提案し、実験的検討結果を報告する。旋律は背後に隠れた和声進行から生成される、とする旋律生成の隠れマルコフモデルを提唱し、その逆問題として、与えられた旋律から背後の和声進行を最尤推定する。2種類の和声進行のモデル、いくつかの旋律生成のモデル、さらにN-bestアルゴリズムによる和声付け複数候補抽出や、与えられた旋律の調性推定及び転調検出についても論じる。童謡や歌曲及びバッハのコラールから学習した和声進行確率モデルを用いた、実際に和声付け実験を行なった結果についても述べる。
著者
齋藤 直樹 中井 満 下平 博 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.106, pp.27-32, 1999-12-11
参考文献数
17
被引用文献数
12

本稿では、隠れマルコフモデルを用いて人間によって、鍵盤演奏された音符音長系列情報(スタンダードMIDIファイル)から意図された音符列を推定する手法を提案し、実験によりその有効性を実証する。人間が音楽演奏するときの各音符の物理的長さは、音符の正規の音長から意識的・無意識的に揺らぐため、楽譜投入・自動採譜などでは、意図された各音符の音価を正しく推定するのは容易ではない。本研究では、連続音声認識の定式化に倣って、演奏入力を音楽的に理解する原理を隠れマルコフモデル(M)によりモデル化し、意図された音符列を推定する。更に、同じ原理によりテンポ変化推定・小節線推定・拍子推定を提案する。評価実験により、一般に用いられている閾値処理より良好な結果が得られることを示す。This paper proposes the use of Hidden Markov Model (HMM) for restoration of a music note sequence from the music performance by human (reprenseted by a standard MIDI file). Successful experimental results are also presented. As the physical duration of a musical note in a human music performance fluctuates, intentionally or unintentionally, from the nominal length of the note, it is not easy to estimate the intended sequence of notes in autonmatic music transciption or music entry to computers. In the present paper, utilizing the formulation of continuous speech recognition, we use Hidden Markov Model (HMM) for modeling the process of the human understanding music performances and estimate the intended sequence of musical notes. We also apply the same principle to tempo estimation, bar line allocation, and beat estimation. Through experimental evaluation, we show the proposed method outperfoms existing methods.
著者
北条 伸克 亀岡 弘和 嵯峨山 茂樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.113, no.308, pp.13-18, 2013-11-14

本稿は,高品質なテキスト音声合成を目指し,複合ウェーブレットモデル(composite wavelet model; CMW)と隠れマルコフモデル(hidden Markov model; HMM)の統合モデルに,フォルマント周波数軌跡のモデルを組み込む.ケプストラム特徴量による従来のHMM音声合成方式では,モデル学習時におけるケプストラム特徴量の平均化がスペクトルの周波数方向の平滑化の原因となり,一般にbuzzyな合成音声へ劣化する原因となった.これに対し,フォルマント周波数に相当する特徴量の平均化はスペクトルの平滑化をもたらさないと期待される.このような観点から,我々は,CWMとHMMの統合モデルによる音声合成方式を過去に提案した.一方で,従来のCWMとHMMの統合モデルは,スペクトル系列の区分定常な生成モデルであり,ダイナミクスのモデル化に課題があった.本稿は,CWMがフォルマント周波数に相当するパラメータを持つことに着目し,フォルマント周波数軌跡の生成モデルをCWMとHMMの統合モデルに組み込み,スペクトル系列のダイナミクスをモデル化する.本稿では,実験を通して提案モデルがフォルマント周波数軌跡を十分に推定することを定性的に確認した.
著者
嵯峨山 茂樹 小野 順貴 西本 卓也 齋藤 大輔 堀 玄 中村 和幸 金子 仁美
出版者
国立情報学研究所
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

統計的信号処理と音楽理論の数理モデルを融合して、音楽(および音響・音声)の信号処理と情報処理に多面的に取り組んだ。音声認識分野では音響処理と言語処理の融合がキー技術であったように、音楽においては信号処理と音楽理論の融合が必須である。具体的には、A: 数理モデルと統計学習を軸にした音楽信号の解析・変換・加工・分離・検出、B: 音楽理論の数理的定式化を軸にした音楽信号の和音認識・リズム解析・セグメンテーション・構造解析・ジャンル認識、C: 機械学習と最適化を軸にした自動演奏・自動作曲・自動伴奏・自動編曲などを研究・開発した。
著者
大倉 計美 杉山 雅英 嵯峨山 茂樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.76, no.12, pp.2469-2476, 1993-12-25
参考文献数
17
被引用文献数
34

混合ガウス分布型HMMにおける話者適応方式である「移動ベクトル場平滑化話者適応方式」を提案する.本手法は,話者適応の問題を少量学習音声資料を用いたHMMの再学習による分布の移動問題としてとらえ,学習前後のHMMのガウス分布の平均ベクトルの差分(移動ベクトル)が構成する一つの場(移動ベクトル場)の連続性の拘束条件に基づく移動ベクトルの補間と平滑化により,不十分な学習資料しか得られない場合に生じる(1)未学習モデルの問題と,(2)モデルの推定誤差の問題,に対処するものである.本論文では評価話者に男女各1名を用いた23音素認識実験により,平滑化はモデルの推定誤差を吸収するために有効な手法であることを示した.また,文節音声認識において,本手法の発話様式適応への応用と不特定話者モデルに基づく話者適応への応用を検討し,本手法の有効性を示した.