著者
大石康智 亀岡 弘和 持橋 大地 永野 秀尚 柏野 邦夫
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.9, pp.1-8, 2010-07-21
被引用文献数
1

本報告では,歌声のF0動特性をノート単位で編集し,歌い方を多様に変形できる歌声合成インタフェースの実現を目指し,その動特性のモデリングとモデルパラメータ推定に関する新しい解法を提案する.F0動特性は線形2次系に従うと仮定し,その生成過程を完全に確率モデルとして表現する.そして,EM法に基づいて,効率的なモデルパラメータ最適化アルゴリズムを導出する.最終的に,推定された2次系の振動を制御するパラメータと各ノートの音高を表すパラメータを個別に操作し,生成されたF0系列に基づいて歌声音響信号を変形して合成する"Vocal Dynamics Controller"を実装する.We present a novel statistical model for dynamics of various singing behaviors, such as vibrato and overshoot, in a fundamental frequency (F0) sequence and develop a note-by-note editing and synthesizing interface for F0 dynamics. We develop a complete stochastic representation of the F0 dynamics based on a second-order linear system and propose a complete, efficient scheme for parameter estimation using the Expectation-Maximization (EM) algorithm. Finally, we synthesize the singing voice using the F0 sequence generated by manipulating model parameters individually which control the oscillation based on the second-order system and the pitch of each note.
著者
高橋 量衛 大石康智 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.102, pp.43-48, 2007-10-12
被引用文献数
1

本研究では、ユーザが閲覧している Web ページにふさわしい BGM を、自動的に選曲するという新しい楽曲検索(推薦)システムを提案する。閲覧ページのテキストに含まれる語彙の共起から、それらの語彙に関連する楽曲の検索、推薦を行う。そのためには、語彙の共起に基づく特徴空間と楽曲の音響的特徴空間とを関連付ける必要がある。我々は、線形変換を用いてこの関連付けを実装した。さらに、Web から収集した楽曲のレビューのようなテキストデータと、その楽曲の音響特徴量を用いて、関連付けの性能評価実験を行った。その結果、各楽曲に対し 1 つのレビューを利用するより、曲名とアーティスト名を含む Web ページを複数利用した場合に関連付け性能が高いことを確認した。A new music information retrieval application, WEB-BGM that automatically selects and plays the background music for the web page under browsing is proposed. In order to find for the song that is 'near' to the browsing page, the song is needed to be located in the document space. However, in general, the documents relevant to the song, e.g. reviews of the song, are not available for each songs. Therefore, we train a matrix that transforms a document vector onto acoustic space so that to find 'nearest' song to the web page in the acoustic space. The feasibility of the idea is confirmed through preliminary experiments using song reviews and Web pages including the song title and artist name.
著者
大石康智 亀岡弘和 持橋大地 柏野邦夫
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.22, pp.1-8, 2013-08-24

歌声の声の大きさの変化 (音量軌跡と呼ぶ) を楽譜と関連付けて特徴づけ,未知の楽譜に対して,その音量軌跡を予測できる生成過程モデルを提案する.数名の歌唱者による同一曲の歌声の音量軌跡を観察した結果,歌唱者ごとにその動特性は特有であり,楽譜や歌唱表現に起因する成分が含まれることがわかった.また,同一歌唱者による数曲の歌声の音量軌跡を観察したところ,歌唱者はいくつかの動特性パターンを所有し,楽譜が与えられた下で,パターンを使い分けて歌唱すると考えた.これらを踏まえて,楽譜における様々なコンテキスト (音符の音高や音長,音符内位置,前後の音符情報など) が与えられた下で,歌唱者が描くであろう音量軌跡を生成するモデルを構築するために,混合ガウス過程を用いる.複数のガウス過程によって音量軌跡の多様な動特性が特徴づけられ,これらの混合モデルによって歌唱者が時々刻々と動特性パターンを使い分ける動作が表現される.評価実験では,単一のガウス過程を用いるより,混合ガウス過程を用いて音量軌跡の動特性を特徴づけた方が,未知の楽譜に対する音量軌跡の予測性能が高いことを示す.また,音符のコンテキストの種類と予測性能の関係について考察する.
著者
大石康智 亀岡 弘和 柏野 邦夫 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.78, pp.89-96, 2008-07-30
被引用文献数
1

歌声の基本周波数 (F0) 軌跡から,歌唱者が意図する旋律概形と歌声の動的変動成分を同時推定する手法を提案する.これまで,旋律概形を表す区分的に一定な階段状の入力信号に、ビブラートやオーバーシュートなどの動的変動因子を表す 2 次系のインパルス応答を畳み込むことによって,F0 軌跡を生成するための制御モデルが提案された.しかし,観測される F0軌跡だけから,それぞれの信号を推定する逆問題は不良設定問題であるため,従来のモデルではこの問題を解くことができなかった.そこで,我々は階段状の拘束をもつ特殊な入力信号を隠れマルコフモデル (HMM) でモデル化し,2 次系を含むシステムの伝達関数を全極モデルで表現することで,Viterbi 学習と線形予測分析 (LPC) 的な解法の反復により,モデルパラメータを効率的に推定するアルゴリズムを提案する.本稿ではその定式化と実装を行い,観測される F0 軌跡から旋律概形と動的変動成分をともに推定できること,さらに推定されたパラメータによって F0 軌跡を生成可能であることを確認する.In this paper, we propose a novel representation of F0 contours that provides a computationally efficient algorithm for automatically estimating the parameters of a F0 control model for singing voices. Although the best known F0 control model, based on a second-order system with a piece-wise constant function as its input, can generate F0 contours of natural singing voices, this model has no means of learning the model parameters from observed F0 contours automatically. Therefore, by modeling the piece-wise constant function by Hidden Markov Models (HMM) and approximating the transfer function of the system by the all-pole model, we estimate model parameters optimally based on iteration of Viterbi training and an LPC-like solver. Our representation is a generative model and can identify both the target musical note sequence and the dynamics of singing behaviors included in the F0 contours. Our experimental results show that the proposed method can separate the dynamics from the target musical note sequence and generate the F0 contours using estimated model parameters.
著者
大石康智 後藤 真孝 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.113, pp.3-8, 2006-10-27
被引用文献数
5

メロディを歌っても,曲名を読み上げても検索可能な楽曲検索システムを提案する.このシステムは,歌声と曲名の読み上げ音声(朗読音声)を自動識別するため,ユーザはシステムの入力モードを切り替えるのではなく,入力音声の発話様式を切り替えるだけで,シームレスに楽曲を検索することができる.これまでに我々が提案した音声識別器を実装し,歌声と識別されれば,ハミング検索手法によってメロディから曲を検索する.一方,朗読音声と識別されれば,音声認識によって書き起こされた曲名から曲を検索する.大規模な歌声データベースを利用して提案システムの評価実験を行った結果,歌声と朗読音声の自動識別性能は96.1%であった.さらに,検索キーのハミング検索,音声認識によって100曲中10位以内に正解の曲が含まれる平均検索率は,それぞれ50.5%と96.7%であった.We propose a music retrieval system that enables a user to retrieve a song by two different methods: by singing its melody or by saying its title. To allow the user to use those methods seamlessly without changing a voice input mode, a method of automatically discriminating between singing and speaking voices is indispensable. We therefore designed an automatic vocal style discriminator and built a music retrieval system that retrieves a song by query-by-humming for singing voice or by dictating the song title by automatic speech recognition (ASR) for speaking voice. Experimental results with a large music database built for singing research show that our system is able to discriminate between singing and speaking voices with 96.1%. The average retrieval rates of correct songs in the top 10 of 100 songs by query-by-humming and ASR for song titles are 50.5% and 96.7% respectively.