著者
川上 大輔 金子 仁美 嵯峨山 茂樹
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-84, no.6, pp.1-6, 2010-02-08

和声は西洋音楽の重要な要素であり、特に音楽音響信号からの和声推定や自動採譜などにおいては、精密な和声進行の統計的モデルが必要である。筆者らは、和声に関する研究推進のため、人手による和声ラベル作業の容易さと、コンピュータ可読性の両立を主眼にして、和声記述仕様を策定し、それに基づいて和声の18世紀から20世紀初頭までのクラシック音楽作品60曲に機能和声ラベルデータを付与した。その和声系列を統計解析し、音楽的な知見から説明を試みる。また、統計的和声モデルとしてN-gramモデルに関して、Nの値、スムージング法等を検討する。調や機能和声などを反映した詳細な和声進行のモデルは、従来の和声モデルよりperplexityを低くできることを示す。
著者
武田 晴登 篠田 浩一 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.63, pp.23-28, 2002-07-07
被引用文献数
6

本稿では、MIDIキーボードによる人間の演奏から自動採譜を行うシステムについて述べる。鍵盤楽器からMIDI信号を入力するため、ピッチについての情報は正確に得られるのに対し、リズムについては音の長さが得られるだけなので、音の長さを音符に変換する処理が必要である。市販ソフトではメトロノームなどによりテンポを強制された演奏に対する自動採譜が実現されているが、テンポの指定を行わず自由に弾かれた演奏に対するリズム認識についは有効な手法は確立されていない。我々はテンポの指定のない演奏に対するリズム認識を行うために、音楽の時間構造をテンポとリズムパターンに分けて考え、リズムパターンを表す特徴量である「リズムベクトル」に注目する。リズムベクトルとテンポ変動は、隠れマルコフモデルを用いてモデリングを行い、リズム認識の問題の推定のの問題として扱う。本稿では、本稿では、リズムベクトルに基づくリズム認識のための確立モデルを提案する。さらに、提案されるモデルを用いた実験として3人の被験者のMIDIキーボードによる単旋律の曲の演奏について認識実験を行い、有効性を示唆する実験結果として認識率93.2%が得られたことを報告する。This paper proposes a rhythm recognition method for MIDI signal performed by MIDI keyboard. An usual way of automatic transcription from MIDI signals is to play MIDI keyboard with metronome to perform in constant tempo and quantize the note durations in a resolution level which is given by the user. A new method proposed in this paper, however, does not require performer to obey the beats of metronome and can recognize rhythm pattern for automatic transcription. We define ratio of note durations as a new feature "Rhythm vector" .Rhythm Vector and tempo variation are integrated in Hidden Markov Model, which is used in modern speech recognition, and we deal with rhythm recognition as a stochastic estimating problem. Experimental result is also reported.
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
橘 秀幸 小野 順貴 嵯峨山 茂樹
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.12, pp.1-6, 2009-07-22

本稿では,歌声と楽器音を両方含むような音楽音響信号から,歌声成分を強調,または抑圧する信号処理手法について述べる.歌声に相当する成分を検出するために,本稿ではスペクトルの時間変化に由来するスペクトログラムの特徴的な形状に着目する.歌声にはスペクトルの時間変化や旋律的な動きがあるため,スペクトルの形状が長時間一定であることはなく,またこれらの時間変化の影響で歌声のスペクトルは周波数軸方向にある程度の幅を有するという点で特徴的である.このような特徴をスペクトログラムの異方性という観点から捉えると,歌声と楽器音の滑らかさは異方的であり,異方的な信号を分離する手法を使って歌声と伴奏を分離することができる。本稿ではそのような手法を具体的に提案し,実際の音楽信号を用いた実験を行った結果,聴感上,歌声成分が強調/抑圧された信号が得られることを確認した.We address a problem of enhancing or suppressing singing voice components in music audio signals. To achieve the purpose, we focus on peculiar spectral shapes of singing voice: they are not maintained unchanged for a while, and they occupy broad bandwidth, both of them is caused by spectral fluctuations and melodic nature of singing voice. When we regard those characteristic shapes as anisotropic smoothness of spectrogram, we can separate a music into singing voice and accompaniment, by applying a method which separates a signal into anisotropic components. In this paper, we propose a signal processing algorithm to enhance/suppress singing voice, based on those natures of spectral shapes of singing voice. We also conducted an auditory evaluation to confirm the effectivenes of the method using real music audio signals.
著者
高橋 佳吾 西本 卓也 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.53, pp.61-66, 2003-12-21
参考文献数
8
被引用文献数
9 7

本報告では、多重音のモノラル音響信号の基本周波数を連続的な分布として出力する手法(Specmurt法)を提案する。多重音を構成する各音が共通した周波構造パターン(高調波成分間の強度比パターン)のスペクトルを持つ場合、対数周波数軸上では、これらの互いの関係は、同一の倍音パターン形状を平行移動した関係となる。これは、多重音の基本周波数の分布と共通調波構造パターンとの対数周波数軸上の畳み込みと解釈でき、基本周波数分布を人力、共通調波構造パターンをインパルス応答とした線形系の出力と考えることができる。共通調波構造パターンを仮定して、対数周波数領域に対するフーリエ領域で除算を用いて逆畳み込みを行えば、基本周波数を連続分布として求めることができる。その結果を濃淡表示すれば、スペクトログラムに似た基本周波数分布表示が得られる。実験を通して、基本的な理論を検証し、実際の音楽信号に適用し、効果を確認した。
著者
鷹見 淳一 嵯峨山 茂樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.76, no.10, pp.2155-2164, 1993-10-25
被引用文献数
109

本論文では,HMMを用いた音素認識において,従来知識や経験,あるいはゆう度とは異なる尺度に基づいて決められていた認識単位やモデルの状態共有構造を,モデルパラメータと合わせてすべてを同時に学習・形成することのできる逐次状態分割法(SSS)と,SSSにより自動生成される表現効率の高い異音モデルである隠れマルコフ網(HMnet)を用いた音素認識手法を提案する.HMnetを用いた日本語26音素に対する音素識別実験では,従来の混合ガウス分布音素HMMを上回る認識性能が得られ,本手法の有効性を確認した.
著者
齊藤翔一郎 亀岡 弘和 小野 順貴 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.85-92, 2006-08-08
被引用文献数
1

本稿では 音楽音響信号の多重ピッチ推定を行う手法であるSpecmurt分析をMAP推定の観点から定式化し 事後確率を最大化することによって基本周波数分布と共通調波構造パターンを求めるアルゴリズムについて述べる.我々はこれまでに非線型写像を用いて基本周波数分布に関する先験情報を利用しつつ共通調波構造パターンを推定する手法を提案してきた. この手法は直感的には理解がしやすいが アルゴリズムが何を目的関数としているかなどの見通しが立ちにくく アルゴリズムの収束も保障されなかった. そこで我々はSpecmurt分析における多重ピッチ推定を事後確率を最大化する推定として定式化し直し 今までの反復推定に新たな解釈を加えるとともに そこで明らかになった問題を踏まえ事後確率を最大化するような新たなアルゴリズムを提案する.評価実験によって平均で64.11%のMIDI変換正解率を得た.This paper describes a iterative algorithm for estimating a fundamental frequency distibution and a harmonic structure pattern by reformulating Specmurt analysis form a standpoint of maximum a posteriori probability. We have proposed specmurt Analysis which calculate the fundamental frequency distribution of multi-pitch music signals by iterative estimation algorithm using non-linear mapping function based on prior information. This iterative algorithm is easy to understand, but it is not obvious what the algorithm considers as an objective function, and the convergence is not ensured. Therefore, we make a explanation of the algorithm from the standpoint of maximum a posteriori probability, and propose a new algorithm based on MAP estimation. Evaluation result shows an avarage 64.11% accuracy of WAV to MIDI conversion.
著者
川上 大輔 金子 仁美 嵯峨山 茂樹
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.6, pp.1-6, 2010-02-08
参考文献数
5
被引用文献数
2

和声は西洋音楽の重要な要素であり、特に音楽音響信号からの和声推定や自動採譜などにおいては、精密な和声進行の統計的モデルが必要である。筆者らは、和声に関する研究推進のため、人手による和声ラベル作業の容易さと、コンピュータ可読性の両立を主眼にして、和声記述仕様を策定し、それに基づいて和声の18世紀から20世紀初頭までのクラシック音楽作品60曲に機能和声ラベルデータを付与した。その和声系列を統計解析し、音楽的な知見から説明を試みる。また、統計的和声モデルとしてN-gramモデルに関して、Nの値、スムージング法等を検討する。調や機能和声などを反映した詳細な和声進行のモデルは、従来の和声モデルよりperplexityを低くできることを示す。Harmony is an important element of Western music, and a statistical model of precise harmony progression is especially necessary in harmony estimation and an automatic record in a musical note, etc. from the music acoustic signal. Authors settled on the harmony description specification with a main objective of the easiness of the harmony label work by people and coexisting of the computer readability for research promotion concerning harmony, and gave the function harmony label data to 60 classical music works from the 18th century of harmony to the 20th beginning of the century based on it. Harmony sequences is taking statistics analyzed, and the explanation is tried from musical knowledge. Moreover, the value N and the smoothing method of N-gram model, as a statistical harmony model, are examined. The model of detailed harmony progression that prepares and reflects key and function harmony etc. shows that perplexity can be lowered more than a past harmony model.
著者
角尾 衣未留 George Tzanetakis 小野 順貴 嵯峨山 茂樹
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.1, pp.1-6, 2009-07-22
参考文献数
10

本研究は音楽音響信号中に含まれる小節単位の低音旋律パターンをジャンルごとに複数種類抽出し、ジャンル認識の精度を向上させる事を目的としている。小節単位の低音旋律パターンは例えばロックでは同じ音を同じリズムで演奏されるのに対し、ジャズではウォーキングベースと呼ばれる複雑なパターンであるなど、ジャンル毎に特徴的である。低音旋律パターンのピッチシフトに対する不変性を考慮した k-means クラスタリング法を提案し、ジャンル毎のパターンテンプレートの学習を行い、楽曲に含まれているパターンとテンプレートの距離に基づく特徴量ベクトルを算出することによって、ジャンル認識を行いその有効性を検証する。This paper discusses a new approach for clustering musical bass-line patterns representing particular genres and its application to audio genre classification. Many musical genres are characterized by not only timbral information but also representative bar-long bass-line patterns. For instance, while a bass-line in rock music is constant pitch and a uniform rhythm, in jazz music there are many characteristic movements such as walking bass. We propose a representative bass-line pattern template extraction method based on k-means clustering handling a pitch-shift problem. After extracting the templates for each genre, a feature vector is calculated and used for automatic genre classification.
著者
村上 仁- 嵯峨山 茂樹
雑誌
全国大会講演論文集
巻号頁・発行日
vol.45, pp.161-162, 1992-09-28
被引用文献数
1

形態素解析は、従来から対話、翻訳、校正などの目的のために、自然言語処理研究の一つの分野として研究が続けられている。これらの方式の多くは、予め単語を構文的意味的なカテゴリに分類してカテゴリー間の接続ルールや係受けルールを記述しておく必要がある。しかし、実際の日本語では単語の境界が明確でないことや単語の多品詞性や曖昧な係受けなどの問題があるため、精密なルールの作成は容易でない。そこで、本論文では隠れマルコフモデル(HMM)を用いた日本語の形態素解析方法を提案する。HMMにはBaum-Welchの学習アルゴリズムが知られているためテキストデータからモデルのパラメータが学習できる。そのため、文法としてのルールも品詞ラベルが振られたテキストデータが与えられなくても形態素解析ができる可能性がある。最後にこのモデルに基づいて実験を行なった。ここで用いたモデルは、かなり単純なモデルであるが、実験の結果は、単純なモデルとしては良好な解析結果を得た。
著者
宮本 賢一 亀岡 弘和 西本 卓也 小野 順貴 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.81, pp.155-160, 2007-08-03
参考文献数
11
被引用文献数
1

本稿では、調波構造・時間包絡の連続性・音色の類似性に基づいた音響エネルギーのクラスタリングによって、複数楽器音楽信号から、単音のクラスタリングと単音の教師なし音色クラスタリングを同時に実現する統合的な楽音分析手法HTTC(Harmonic-Temporal-Timbral Clustering)を提案し、問題の数理的な解法を論じる。また実際の楽曲を用いての実装実験を行ない、その性能について議論・考察する。In this article, we propose an algorithm to analyze multi-instrument polyphonic music signal named Harmonic-Temporal-Timbral Clustering (HTTC) via unified clustering of acoustic spectral energies based on similarities in harmonic, temporal and timbral characteristics. We also discuss the performance of the present algorithm tested in some experiments using a multi-instrument music consisting of two instruments.
著者
諸岡 孟 西本 卓也 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.77-82, 2008-02-09
被引用文献数
1

我々は,自動作編曲に向けた音楽の生成モデルの構築を目的とし,人間が和声学を習得して作曲編曲を行うのと同様に,「コンピュータのための和声学」の確立を目指して,確率文脈自由文法に基づく手法を検討中である.本稿では,前挿入音と後挿入音の組み合わせで非和声音を表現した手法の改良の一つとして,非和声音を和音と和声内音との関係性によって分類した結果を利用し,より音楽的な非和声音の扱いが可能となるような確率文脈自由文法に基づく音楽生成モデルおよびその解析手法を考案したので,報告する.今回は音楽生成モデルを自動和声解析問題に適用し,音楽生成モデルから和声と楽譜が同時に生成され,楽譜のみが観測される場合に,隠れている和声を求める逆問題を解く.We are investigating the harmony theory for computers based on PCFG (Probabilistic Context Free Grammar) to model the music generation process toward automatic music composition and arrangement, simulating humans composing and arranging music using knowledge of harmony theory. We pay special attention on non-harmonic notes, and propose a PCFG-based method for musicological treatment of various non-harmonic notes by classifying relations between the chord and non-harmonic notes to improve the former approach to represent non-harmonic notes as inserted notes before and after harmonic tones. We apply the music generation model to automatic harmony analysis by solving the inverse problem to find the hidden chord sequence that has generated the given music score through the music generation model.
著者
永井 明人 北 研二 花沢 利行 川端 豪 鹿野 清宏 森元 逞 嵯峨山 茂樹 榑松 明 鈴木 忠 岩崎 知宏 中島 邦男
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.9, pp.723-729, 1994-09-01
被引用文献数
1

本稿は、大語彙の連続音声認識を実時間で処理するための、HMM-LR連続音声認識装置の設計、処理性能について述べる。HMM-LR法は、一般化LR構文解析により入力音声データ中の音素を予測し、予測された音素の存在確率をHMM音素照合により調べることで、音声認識と言語処理を同時進行させる方式であり、高精度で効率的な処理系を構成することができる。処理量が極めて大きな継続時間制御付きトレリス計算を伴うHMM-LR連続音声認識を実時間で実行するために、本装置は種々の高速化手法を33個のDSPを用いて実現した。その結果、連続文節発声の入力音声に対し、入力文の長さに依らずに、発声終了後から2〜3秒ですべての認識処理を終了する処理速度を達成した。
著者
米田 隆一 西本 卓也 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.129, pp.31-36, 2005-12-23

本研究では、Standard MIDI File 楽譜等のシンボリックな音楽情報を入力として対旋律、和音、調等のラベルを付与する汎用的な手法を提案する。このような音楽のラベル付与問題は、音声認識における言語モデルとの類似性から、マルコフモデル、および生成モデルとしての HMM (hidden Markov models) を適用することが多かった。本研究でも確率モデルを踏襲するが、MIDI、楽譜などは、縦の和音、横の声部進行等、2次元的な情報であり、マルコフ連鎖のような一次元的なモデリングでは不十分である。このような背景のもと、より広いコンテキストを重視すべきであるという考えが生まれる。マルコフ確率場(Markov random field)モデルは、ノード間の関連をエッジであらわす一種の無向グラフモデルであり、エッジを設計することにより広いコンテキストを柔軟に設定できる。また、マルコフ確率場では我々の持つ音楽的知識を素性関数の設計(エッジの設計)という操作に還元することが可能、という利点を持つ。さらに、識別モデルであるという点でHMMとは異なり、可能なすべての出力系列を入力系列の条件付き確率として求めることができるという点で、条件付き確率場(conditional random fields)とも呼ばれる。本研究ではマルコフ確率場モデルに基いたさまざまな音楽情報処理に対するアプローチを論じる。本手法は汎用であり、応用範囲は多岐にわたるが、本稿では対旋律付け、和声付け、ドミナント定型句の同定、和声解析、調認識に対するアプローチを述べる。考えられる他の応用としては、リズム認識、楽曲のパージング、音楽情報検索など広範囲にわたる。This paper describes a Markov random field approach for labeling tasks such as key finding, automatic harmonization, and automatic counterpoint. Most of our previous work deal with these labeling problems using Markov models, and hidden Markov models as a generative model, analogous to language models of automatic speech recognition. This work follows our previous probabilistic approach. 1-dimensional Markov chain, however, cat not model large musical context like scores and SMFs(standard MIDI files) which have rich information in that chords and melodies spread 2-dimesionally. Thus the ability of dealing with large context is crutial in music modeling. Markov random field is a kind of undirected graphical models in which edges are regarded as relevances between nodes. The design of edges (feature functions) corresponds to our music knowledge in which nodes (symbols) have relevances with each other. Markov random field is also called as conditional random fields(CRFs) in that all possible output sequences have conditional probabilites given an input sequence. In other words, CRFs is a discriminative model. Although the proposed model can be applied to many purposes, this paper describes the approaches to five tasks: counterpoint, harmonization, dominant chunk detection, harmony analysis, and key finding. Other possible applications include rhythm recognition, musical parsing, and music information retrieval.