著者
亀岡 弘和
出版者
公益社団法人 計測自動制御学会
雑誌
計測と制御 (ISSN:04534662)
巻号頁・発行日
vol.58, no.3, pp.195-202, 2019-03-10 (Released:2019-03-20)
参考文献数
50
被引用文献数
1
著者
嵯峨山 茂樹 亀岡 弘和
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.64, no.12, pp.715-720, 2008-12-01 (Released:2017-06-02)
参考文献数
36
被引用文献数
1
著者
大石康智 亀岡 弘和 持橋 大地 永野 秀尚 柏野 邦夫
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.9, pp.1-8, 2010-07-21
被引用文献数
1

本報告では,歌声のF0動特性をノート単位で編集し,歌い方を多様に変形できる歌声合成インタフェースの実現を目指し,その動特性のモデリングとモデルパラメータ推定に関する新しい解法を提案する.F0動特性は線形2次系に従うと仮定し,その生成過程を完全に確率モデルとして表現する.そして,EM法に基づいて,効率的なモデルパラメータ最適化アルゴリズムを導出する.最終的に,推定された2次系の振動を制御するパラメータと各ノートの音高を表すパラメータを個別に操作し,生成されたF0系列に基づいて歌声音響信号を変形して合成する"Vocal Dynamics Controller"を実装する.We present a novel statistical model for dynamics of various singing behaviors, such as vibrato and overshoot, in a fundamental frequency (F0) sequence and develop a note-by-note editing and synthesizing interface for F0 dynamics. We develop a complete stochastic representation of the F0 dynamics based on a second-order linear system and propose a complete, efficient scheme for parameter estimation using the Expectation-Maximization (EM) algorithm. Finally, we synthesize the singing voice using the F0 sequence generated by manipulating model parameters individually which control the oscillation based on the second-order system and the pitch of each note.
著者
米林 裕一郎 亀岡 弘和 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. MUS,[音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.65, pp.7-12, 2006-05-13
参考文献数
4
被引用文献数
2

ピアノ曲演奏の運指をHMMを用いて自動決定するアルゴリズムを提案する。手の状態を「隠れ状態」とし、状態遷移から楽譜上の音符推移系列が出力されると考え、楽譜からViterbi探索により最尤状態遷移を求める。この手法により、指の独立性の難易度、黒鍵を含む鍵盤上での2次元的な指位置をモデル化できる。和音を含む両手の場合への拡張、音符長の考慮、学習、複数解の探索が可能な枠組みである。
著者
亀岡 弘和
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.75, no.9, pp.525-531, 2019-09-01 (Released:2020-03-01)
参考文献数
23
著者
中野 允裕 ルルージョナトン 亀岡 弘和 中村 友彦 小野 順貴 嵯峨山 茂樹
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2011, no.6, pp.1-8, 2011-07-20

本報告では,音楽信号のような多重音を解析するための手法として,Bayesian nonparametrics に基づく音響信号スペクトログラムのモデル化方法を提案し,その構成法と推論について議論する.近年,非負値行列分解に代表されるようなスパース表現基づく音楽信号のモデル化が盛んに研究されている.その中で解決すべき二つの問題が注目を集めている.一つ目は楽器音が時間変化する多様なスペクトルを持つ点であり,もう一点は観測信号中に含まれる音源の数が一般的には未知なことである.さらに,楽器音の多様なスペクトルは音源数の推定を困難にし,また逆に音源数が未知であることによって一音一音がどの程度多様なスペクトルを持つか推定することを困難にしている.本報告では,これら二つの課題を同時に解消するために,信号の重畳を表す非負値行列分解型のスパース表現と時系列パターンを表現する隠れマルコフモデルを Bayesian nonparametrics 上で融合させたスペクトログラムモデルを提案する.This paper presents a Bayesian nonparametric latent source discovery method for music signal analysis. Recently, the use of latent variable decompositions, especially nonnegative matrix factorization (NMF), has been a very active area of research. These methods are facing two, mutually dependent, problems: first, instrument sounds often exhibit time-varying spectra, and grasping this time-varying nature is an important factor to characterize the diversity of each instrument; moreover, in many cases we do not know in advance the number of sources. Conventional decompositions generally fail to cope with these issues as they suffer from the difficulties of automatically determining the number of sources and automatically grouping spectra into single events. We address both these problems by developing a Bayesian nonparametric fusion of NMF and hidden Markov model (HMM).
著者
石原達馬 吉里幸太 亀岡弘和 齋藤大輔 嵯峨山茂樹
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-99, no.20, pp.1-5, 2013-05-04

音声の基本周波数(F0)軌跡は,話者性,感情,意図など豊富な非言語情報・パラ言語情報が含まれることが知られており,その分析は重要な課題である.我々は基本周波数軌跡の数理的なモデルの一つである,藤崎モデルのパラメータの生成過程をHMMによりモデル化することで,実測F0軌跡から藤崎モデルのパラメータを推定する手法を開発してきた.本研究では,パラメータ推定精度の向上を目指して,藤崎モデルの指令列には典型的なパターン(テンプレート)が存在するという仮説に基づき,分析のための新しいHMMのトポロジーを提案する.定量評価実験により,モデルの持つテンプレート数に対する推定精度の変化を実験により確認した.
著者
土屋政人 落合和樹 亀岡弘和 嵯峨山茂樹
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.281-282, 2013-03-06

自動採譜問題における発話時刻列から元の楽譜を推定するリズム解析の課題は,テンポと音価の間には無限の解釈が存在しうるという不良設定性の高い問題である.人間が音楽を聞く時にその楽譜を想像することができるのは、人間は音楽として常識的なリズムに関する知識を持っており,そういったトップダウンな情報と観測発話時刻列というボトムアップな情報の両側面から総合的に解釈を行っていると考えられる.そこで本研究ではこうした統合的なアプローチを計算機上で実現することを目指し,言語処理の手法をヒントに楽譜でよく使われる音符列を単語に模してモデル化を行い,楽譜を二次元木構造で表現することを試みた.
著者
高木 信二 Sangjin Kim 亀岡 弘和 山岸 順一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.21, pp.1-6, 2016-12-13

多くの統計的パラメトリック音声合成システムでは,高品質ボコーダを用い,音声波形を構築する.その際,ソース ・ フィルタモデルに基づくボコーダが利用されることが多く,言語特徴量からメルケプストラム,F0 といった音響特徴量を予測し,ボコーダによる音声波形生成が行われる.しかし,ボコーダを用いたことに起因する合成音声の自然性の低下が常に問題となっており,これまで様々な研究が報告されている.しかし,ソース ・ フィルタモデルに基づいている限り,この問題を完全に解決することは容易ではない.そこで本研究では,ボコーダを用いない音声合成システム構築することを考える.具体的には,統計的パラメトリック音声合成において,振幅スペクトルからの位相復元,逆短時間フーリエ変換,および重加算法 (OLA) に基づき波形を生成することについて検討する.今回提案する音声合成の枠組みでは,まず,調波構造を含む振幅スペクトルの予測を DNN 音響モデルにより行い,次に,予測された振幅スペクトルから Griffin / Lim 法により位相を復元することで,音声波形の生成を行う.主観評価実験により,高品質ボコーダを用いた DNN 音声合成システムと提案システムの比較を行った結果,提案法ではボコーダに基づく合成音声特有のバジー感が無い合成音声の生成が可能であることを確認できた.
著者
金子 卓弘 亀岡 弘和 北条 伸克 井島 勇祐 平松 薫 柏野 邦夫
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.20, pp.1-6, 2016-12-13

統計的パラメトリック音声合成は,その柔軟性と省メモリ性などの利点により広く使われている. しかし,この手法で生成した音声パラメータは,学習の際の統計的平均化によって過剰な平滑化が生じ,合成した音声は肉声感が失われる傾向がある. この問題に対し,本稿では,敵対的学習を用いて取得したポストフイルタを用いることにより,失われた肉声感を再構成する手法を提案する.従来研究でも,系列内変動や変調スペクトルに着目して肉声感を取り戻そうという試みはあるが,これらは経験的発見に基づくものであり,合成音声と自然音声の差異の一部に対処しているに過ぎない. これに対して,提案手法は敵対的学習を用いながら,合成音声と自然音声とのギャップを埋めるようなポストフイルタをデータから直接学習しようとするものである. これにより,合成音声の音声特徴量を真の音声の音声特徴量の分布に近づくように変換するポストフイルタを得ることができる.実験では,提案手法を用いることにより,合成音声から分析合成音声に匹敵する音声が得られることを示す.
著者
亀岡 弘和
雑誌
情報処理
巻号頁・発行日
vol.57, no.6, pp.506-509, 2016-05-15
著者
北条 伸克 亀岡 弘和 嵯峨山 茂樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.113, no.308, pp.13-18, 2013-11-14

本稿は,高品質なテキスト音声合成を目指し,複合ウェーブレットモデル(composite wavelet model; CMW)と隠れマルコフモデル(hidden Markov model; HMM)の統合モデルに,フォルマント周波数軌跡のモデルを組み込む.ケプストラム特徴量による従来のHMM音声合成方式では,モデル学習時におけるケプストラム特徴量の平均化がスペクトルの周波数方向の平滑化の原因となり,一般にbuzzyな合成音声へ劣化する原因となった.これに対し,フォルマント周波数に相当する特徴量の平均化はスペクトルの平滑化をもたらさないと期待される.このような観点から,我々は,CWMとHMMの統合モデルによる音声合成方式を過去に提案した.一方で,従来のCWMとHMMの統合モデルは,スペクトル系列の区分定常な生成モデルであり,ダイナミクスのモデル化に課題があった.本稿は,CWMがフォルマント周波数に相当するパラメータを持つことに着目し,フォルマント周波数軌跡の生成モデルをCWMとHMMの統合モデルに組み込み,スペクトル系列のダイナミクスをモデル化する.本稿では,実験を通して提案モデルがフォルマント周波数軌跡を十分に推定することを定性的に確認した.
著者
中村友彦 吉井和佳 後藤真孝 亀岡弘和
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.11, pp.1-6, 2014-08-18

本論文では,調波楽器音の周波数特性とドラムの音色を,音楽音響信号間で楽譜を用いずに置換するシステムを提案する.このシステムでは,まず置換元の音楽音響信号 (インプット) と置換先の音楽音響信号 (リファレンス) の振幅スペクトルをそれぞれ調波楽器音成分と打楽器音成分のスペクトルに分離し,それぞれの成分に対して独立に処理を行う.調波楽器音成分のスペクトルの周波数特性をスペクトルの山周辺と谷周辺を通る 2 つのスペクトル包絡によって特徴付け,インプットの調波楽器音成分の振幅スペクトルを,インプットとリファレンスの調波楽器音成分のスペクトル包絡が類似するように変形する.インプットとリファレンスの打楽器音成分のスペクトログラムは,各ドラム楽器毎のスペクトログラムに分離した後,ユーザによって指定されたインプットのドラム楽器の音色をリファレンスのドラム楽器の音色に置換する.主観評価実験により,提案するシステムが周波数特性とドラムの音色を適切に置換できることを確認した.
著者
齊藤翔一郎 亀岡 弘和 小野 順貴 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.85-92, 2006-08-08
被引用文献数
1

本稿では 音楽音響信号の多重ピッチ推定を行う手法であるSpecmurt分析をMAP推定の観点から定式化し 事後確率を最大化することによって基本周波数分布と共通調波構造パターンを求めるアルゴリズムについて述べる.我々はこれまでに非線型写像を用いて基本周波数分布に関する先験情報を利用しつつ共通調波構造パターンを推定する手法を提案してきた. この手法は直感的には理解がしやすいが アルゴリズムが何を目的関数としているかなどの見通しが立ちにくく アルゴリズムの収束も保障されなかった. そこで我々はSpecmurt分析における多重ピッチ推定を事後確率を最大化する推定として定式化し直し 今までの反復推定に新たな解釈を加えるとともに そこで明らかになった問題を踏まえ事後確率を最大化するような新たなアルゴリズムを提案する.評価実験によって平均で64.11%のMIDI変換正解率を得た.This paper describes a iterative algorithm for estimating a fundamental frequency distibution and a harmonic structure pattern by reformulating Specmurt analysis form a standpoint of maximum a posteriori probability. We have proposed specmurt Analysis which calculate the fundamental frequency distribution of multi-pitch music signals by iterative estimation algorithm using non-linear mapping function based on prior information. This iterative algorithm is easy to understand, but it is not obvious what the algorithm considers as an objective function, and the convergence is not ensured. Therefore, we make a explanation of the algorithm from the standpoint of maximum a posteriori probability, and propose a new algorithm based on MAP estimation. Evaluation result shows an avarage 64.11% accuracy of WAV to MIDI conversion.
著者
大石康智 亀岡弘和 持橋大地 柏野邦夫
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.22, pp.1-8, 2013-08-24

歌声の声の大きさの変化 (音量軌跡と呼ぶ) を楽譜と関連付けて特徴づけ,未知の楽譜に対して,その音量軌跡を予測できる生成過程モデルを提案する.数名の歌唱者による同一曲の歌声の音量軌跡を観察した結果,歌唱者ごとにその動特性は特有であり,楽譜や歌唱表現に起因する成分が含まれることがわかった.また,同一歌唱者による数曲の歌声の音量軌跡を観察したところ,歌唱者はいくつかの動特性パターンを所有し,楽譜が与えられた下で,パターンを使い分けて歌唱すると考えた.これらを踏まえて,楽譜における様々なコンテキスト (音符の音高や音長,音符内位置,前後の音符情報など) が与えられた下で,歌唱者が描くであろう音量軌跡を生成するモデルを構築するために,混合ガウス過程を用いる.複数のガウス過程によって音量軌跡の多様な動特性が特徴づけられ,これらの混合モデルによって歌唱者が時々刻々と動特性パターンを使い分ける動作が表現される.評価実験では,単一のガウス過程を用いるより,混合ガウス過程を用いて音量軌跡の動特性を特徴づけた方が,未知の楽譜に対する音量軌跡の予測性能が高いことを示す.また,音符のコンテキストの種類と予測性能の関係について考察する.
著者
中野 允裕 大石 康智 亀岡 弘和 向井 良 柏野 邦夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.112, no.111, pp.31-36, 2012-06-22
参考文献数
13

本稿では,隠れマルコフモデルの拡張として,隠れ状態のペアである状態遷移の中のクラスタを抽出する能力を有した新しいモデルについて議論する.提案するモデルでは,状態遷移確率の配列をモンドリアン模様に誘導することによって,複数の系列データから隠れ状態系列を推定すると同時に隠れ状態間のネットワークの中のクラスタを発見することが出来る.提案モデルの応用例として音楽信号に適用した実験を示す.
著者
大石康智 亀岡 弘和 柏野 邦夫 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.78, pp.89-96, 2008-07-30
被引用文献数
1

歌声の基本周波数 (F0) 軌跡から,歌唱者が意図する旋律概形と歌声の動的変動成分を同時推定する手法を提案する.これまで,旋律概形を表す区分的に一定な階段状の入力信号に、ビブラートやオーバーシュートなどの動的変動因子を表す 2 次系のインパルス応答を畳み込むことによって,F0 軌跡を生成するための制御モデルが提案された.しかし,観測される F0軌跡だけから,それぞれの信号を推定する逆問題は不良設定問題であるため,従来のモデルではこの問題を解くことができなかった.そこで,我々は階段状の拘束をもつ特殊な入力信号を隠れマルコフモデル (HMM) でモデル化し,2 次系を含むシステムの伝達関数を全極モデルで表現することで,Viterbi 学習と線形予測分析 (LPC) 的な解法の反復により,モデルパラメータを効率的に推定するアルゴリズムを提案する.本稿ではその定式化と実装を行い,観測される F0 軌跡から旋律概形と動的変動成分をともに推定できること,さらに推定されたパラメータによって F0 軌跡を生成可能であることを確認する.In this paper, we propose a novel representation of F0 contours that provides a computationally efficient algorithm for automatically estimating the parameters of a F0 control model for singing voices. Although the best known F0 control model, based on a second-order system with a piece-wise constant function as its input, can generate F0 contours of natural singing voices, this model has no means of learning the model parameters from observed F0 contours automatically. Therefore, by modeling the piece-wise constant function by Hidden Markov Models (HMM) and approximating the transfer function of the system by the all-pole model, we estimate model parameters optimally based on iteration of Viterbi training and an LPC-like solver. Our representation is a generative model and can identify both the target musical note sequence and the dynamics of singing behaviors included in the F0 contours. Our experimental results show that the proposed method can separate the dynamics from the target musical note sequence and generate the F0 contours using estimated model parameters.
著者
宮本 賢一 亀岡 弘和 西本 卓也 小野 順貴 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.81, pp.155-160, 2007-08-03
参考文献数
11
被引用文献数
1

本稿では、調波構造・時間包絡の連続性・音色の類似性に基づいた音響エネルギーのクラスタリングによって、複数楽器音楽信号から、単音のクラスタリングと単音の教師なし音色クラスタリングを同時に実現する統合的な楽音分析手法HTTC(Harmonic-Temporal-Timbral Clustering)を提案し、問題の数理的な解法を論じる。また実際の楽曲を用いての実装実験を行ない、その性能について議論・考察する。In this article, we propose an algorithm to analyze multi-instrument polyphonic music signal named Harmonic-Temporal-Timbral Clustering (HTTC) via unified clustering of acoustic spectral energies based on similarities in harmonic, temporal and timbral characteristics. We also discuss the performance of the present algorithm tested in some experiments using a multi-instrument music consisting of two instruments.