著者
深山 覚 中妻 啓 米林裕一郎 酒向慎司 西本 卓也 小野 順貴 嵯峨山 茂樹
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2008, no.78(2008-MUS-076), pp.179-184, 2008-07-30

本稿では歌詞の韻律を用いた歌唱曲の新しい自動作曲手法を提案する。旋律を音の経路と捉え作曲を経路探索問題として定式化することで、任意の日本語の歌詞を用いた歌唱曲の自動作曲が、歌詞の韻律に基づく制約条件下での最尤経路探索問題を解くことで実現できることを示す。さらにこの作曲原理を実装した自動作曲システム "Orpheus" を用いて実際に楽曲生成を行い、作曲家による生成された楽曲に対する評価を踏まえて、今回の手法によって妥当な音楽性をもった歌唱曲が生成されたことを検証する。
著者
酒向慎司 宮島 千代美 徳田 恵一 北村 正
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2003, no.82(2003-MUS-051), pp.77-82, 2003-08-04

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成する上で重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリング行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し,なめらかで自然性の高い歌声の合成が可能であることを示す.
著者
丸目 雅浩 南角 吉彦 酒向慎司 徳田 恵一 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.247-252, 2007-12-21

音声合成の需要の高まりにより,多様な話者性や発話スタイルを持った音声の合成が望まれている.しかし,このような音声の合成には,話者や発話スタイルに応じてモデルを用意する必要があり現実的ではない.そこで,少量の学習データにより,多様な話者性を持つ音声の合成を可能とする混合ガウスモデル(GMM)に基づく声質変換が提案されている.しかし,従来の GMM に基づく声質変換では,尤度最大化(ML)基準によりモデルパラメータを点推定しているため,学習データが十分に得られない場合,モデルの推定精度が低下する可能性がある.そこで,GMM に基づく声質変換に変分ベイズ法を適用し,ベイズ基準による声質変換を行う.提案法では,ML 基準に比べて,声質変換の音質と話者性において,品質向上が確認でき,推定精度の高いモデルが得られることがわかった.It is desired a technique for synthesizing speech with various speaker characteristics and speaking styles, by increasing the demand of speech synthesis. However, a large amount of training data is required to construct the system for each characteristics and speaking styleVoice conversion based on Gaussian Mixture Model (GMM) is one of techniques which can solve this problem. GMM is estimated from a small amount of training data based on the Maximam Likelihood (ML) criterion. However, the GMM based voice conversion technique still suffers from the overfitting problem due to insufficient training data and a point estimation of the ML criterion. To improve this problem, we applied the varational Bayes method to the GMM based voice conversion. In experiments, it was confirmed that the proposed technique improves the quality of converted voice, because of its higher generalization ability than the conventional ML based approach.
著者
深山 覚 中妻 啓 酒向 慎司 西本 卓也 小野 順貴 嵯峨山 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.5, pp.1709-1720, 2013-05-15

日本語歌詞からユーザの意向を反映して多様な歌唱旋律を生成するための自動 作曲法があれば,歌のプレゼント,メールの歌い上げ,非専門家の創作支援な どが行える.本論文では初めに,自動作曲される旋律の多様性向上と音楽性の 保持の両立が難しいこ とを議論し,特に日本語歌詞から歌唱旋律を生成する際には,(1)音符数の変化 にかかわらず同じ印象を持つリズムの生成法と,(2)ユーザの意向,歌詞の韻律 と古典的な作曲法に基づ く制約条件を満たす音高列の生成法が必要であることを論じる.(1)については リズム木構造仮説に基づく方法,(2)については,動的計画法を用いた確率最大の音高系列 の探索により解決できることを示す.様々な制約条件のもと自動作曲した結果について専門家による評価を行ったと ころ,本手法によって古典的な歌唱旋律の作曲法からの逸脱の少ない旋律が生 成されることが示され,ユーザの意向を反映して多様な旋律を歌詞から生成す る方法として有効であることが分かった.
著者
酒向慎司 宮島千代美;徳田恵一 北村正 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.3, pp.719-727, 2004-03-15
参考文献数
16
被引用文献数
19

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成するうえで重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリングを行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し歌声の合成が可能であることを示す.We describe a singing voice synthesis system by applying HMM-basedspeech synthesis technique.In this system, a sequence of spectrum and F0 are modeledsimultaneously in a unified framework of HMM, and context dependentHMMs are constructed by taking account of contextual factors thataffects singing voice.In addition, the distributions for spectral and F0 parameter areclustered independently by using a decision-tree based contextclustering technique.Synthetic singing voice is generated from HMMs themselves by usingparameter generation algorithm. In the experiments, we confirmed that smooth and natural-soundingsinging voice is synthesised. It is also maintains the characteristicsand personality of the donor of the singing voice data for HMMtraining.
著者
酒向慎司 才野 慶二郎 南角 吉彦 徳田 恵一 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.39-44, 2008-02-08
被引用文献数
2

声質や歌唱法など歌い手の特徴を歌声データと楽譜から自動学習し,それらを再現するような歌声合成システムについて述べる.本システムでは,歌い手の声質とピッチに関する特徴を確率モデルによる統一的な枠組みでモデル化している.特に,リズムやメロディといった音楽特有の表現要素が,音声信号のスペクトルや基本周波数パターンの変動に大きく関係していることから,楽譜から得られる音階や音長などを考慮したモデル化を行い,楽譜と歌詞を入力として,個人性を備えた歌声を合成するシステムを構築してきた.本手法の特徴は,このような歌声合成モデルを楽譜と歌声データから自動学習できることにある.本報告では,音楽固有のコンテキストの導入,実際の歌声データと楽譜の音符列の間のずれに着目した時間構造モデルについて検討する.実験では,童謡60曲の男性1名の歌声データを用いた歌声合成システムを構成し,ずれモデルの導入による自然性の向上が確認できた.We describe a trainable singing voice synthesis system, that can automatically learns the model parameters from singing voice waveform and musical scores by applying HMM-based speech synthesis technique. In this system, a sequence of spectrum and fundamental freqency (F0) are modeled simultaneously in a unified framework of HMM, and context dependent HMMs are constructed by taking account of contextual factors that affects singing voice. In addition, the distributions for spectral and F0 parameter are clustered independently by using a decision-tree based context clustering technique. Synthetic singing voice is generated from HMMs themselves by using parameter generation algorithm. We introduced an additional "time-lag" model to control start timing of each musical note. In the experiments, we confirmed that smooth and natural-sounding singing voice is synthesized. It is also maintains the characteristics and personality of the donor of the singing voice data for HMM training.
著者
山本 龍一 酒向 慎司 北村 正
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-96, no.13, pp.1-6, 2012-08-02

本稿では,楽譜に基づく音楽音響信号から,演奏位置とテンポを推定する問題について論じる.隠れセミマルコフモデル (HSMM) に基づく演奏位置推定と,線形動的システム (LDS) に基づくテンポ推定を組み合わせることで,入力信号の未来の情報が使えない制約の元で効果を発揮する実時間拍予測アルゴリズムを提案する.具体的には,遅延を許容して信頼性のある演奏位置を推定し,テンポを用いて現在位置を予測する.クラシック音楽およびジャズ音楽データベースを用いてオンセット検出に関する評価実験を行った結果,提案する実時間拍予測アルゴリズムを用いることで,許容誤差 300ms において約 15% 精度が向上することが確認された.
著者
河合彬弘 酒向慎司 北村正
雑誌
研究報告エンタテインメントコンピューティング(EC)
巻号頁・発行日
vol.2013-EC-27, no.14, pp.1-6, 2013-03-08

本研究では,合唱を構成する複数の歌声パートを対象とした多重音高推定を扱う.合唱には歌声パートが調和を保ちながら進行していく特有の性質があり,その性質を利用した手法を提案する.本研究では,調和の要素として歌声パート間の音高の調和と,拍位置における音高変化の有無の同期の 2 つを考える.提案法は,フレームごとのピッチ候補からパート別音高軌跡候補を構成するステップと,候補から考えられる組み合わせの中から歌声パート間の調和を考慮した最良なものを選出するステップに分けられる.実験結果から,比較的推定の困難な部分では,パート間の調和を考慮することで若干の推定精度改善が見られた.
著者
深山 覚 中妻 啓 米林裕一郎 酒向慎司 西本 卓也 小野 順貴 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.78, pp.179-184, 2008-07-30
被引用文献数
8

本稿では歌詞の韻律を用いた歌唱曲の新しい自動作曲手法を提案する。旋律を音の経路と捉え作曲を経路探索問題として定式化することで、任意の日本語の歌詞を用いた歌唱曲の自動作曲が、歌詞の韻律に基づく制約条件下での最尤経路探索問題を解くことで実現できることを示す。さらにこの作曲原理を実装した自動作曲システム "Orpheus" を用いて実際に楽曲生成を行い、作曲家による生成された楽曲に対する評価を踏まえて、今回の手法によって妥当な音楽性をもった歌唱曲が生成されたことを検証する。In this paper, we discuss a new algorithm for automatic song composition and introduce our new composition system named "Orpheus". We show that composing melody on Japanease lyrics can be done automatically by considering musical composition task as an optimal-path search problem under constraints of the upward and downward pitch motions given from the prosody of the lyrics. Valuation on the results generated by "Orpheus" by a musical composer is also reported, which indicates that our new system can compose a song with a proper degree of musicality.
著者
嵯峨山 茂樹 中妻 啓 深山 覚 酒向 慎司 西本 卓也
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
オペレーションズ・リサーチ : 経営の科学 (ISSN:00303674)
巻号頁・発行日
vol.54, no.9, pp.546-553, 2009-09-01
被引用文献数
3

本稿では,任意の日本語テキストの持つ韻律に基づき,歌唱曲を自動作曲する手法について解説する.文学作品や自作の詩,ニュースやメールなど,あらゆる日本語テキストをそのまま歌詞として旋律を生成し,歌唱曲として出力する自動作曲システムは,手軽な作曲のツール,音楽の専門知識を持たない人のための作曲補助ツールとして有用であろう.さらに著作権問題の回避としても用途があろう.歌唱曲は歌詞との関連性が求められる.特に高低アクセントを持つ日本語では,発話音声にピッチの高低が付くため,歌詞を朗読する際の韻律と旋律が一致することが重要とされる.筆者らはこの点に着目し,ユーザが選択した和声,リズム,伴奏音形を拘束条件として,旋律を音高間を遷移する経路とし,韻律の上下動の制限の下で最適経路となる旋律を動的計画法により探索する問題として旋律設計を捉えた.このモデルに基づき,任意の日本語歌詞に,その韻律に一致した旋律を付ける自動作曲手法により自動作曲システムOrpheusを作成したので紹介する.
著者
尾関 日向 酒向 慎司
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2021-MUS-132, no.23, pp.1-5, 2021-09-09

ポピュラー音楽の制作では,マスタリングの際に曲の音量レベルを過剰に高めようとする傾向がみられる.しかし,このようにして作られたダイナミクスの小さな曲は,近年のリスニングスタイルに適していないことが多いと考えられる.そこで本研究では,ラウドなポピュラー楽曲のスペクトログラムからマスタリング前のラウドネスを推定することで,ダイナミクスの復元を目的とする.
著者
酒向慎司 宮島千代美;徳田恵一 北村正
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.3, pp.719-727, 2004-03-15

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成するうえで重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリングを行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し歌声の合成が可能であることを示す.
著者
布川 清彦 井野 秀一 関 喜一 酒向 慎司
出版者
東京国際大学
雑誌
挑戦的研究(萌芽)
巻号頁・発行日
2018-06-29

本研究の目的は,視覚障害者の環境認知における白杖を用いて能動的に作られた音の効果を実験的に検証することである.目的を達成するために次の4つの研究を計画した.研究1:白杖によって作られる音情報(反響音の物理的効果)の分析,研究2:白杖 によって作られる音情報における人の効果検証,研究3:白杖によって作られた音情報の効果検証,研究4:総合考察.本年度は,研究1と2を実施した.研究1と2の両方で,推定する対象を硬さにした.硬さを推定する対象としては,一辺の長さが300mmの正方形で,その厚さが12mmであるゴム板を用いた.また,使用する白杖には,視覚障害者に広く用いられているアルミニウムの主体とペンシルチップ(石突き)を用いた.研究1では,人を介在させずに機械的に一定の高さから白杖の先端を自動的に落とす装置を作成した.この装置を用いて,機械的に対象を打った時の音を録音した.ゴムの硬さは,20度から10度刻みで90度までの8種類を用意した.そして,周波数分析を行うプロトコルを作成して,周波数分析を行い,硬さに対する基本的な白杖の打撃音の特性を検証した.研究2では,白杖ユーザが利用する代表的な3種類の握り方を条件として,視覚障害白杖ユーザと晴眼大学生を実験参加者として,白杖で対象となるゴム板を叩き,触覚情報と音情報の両方を利用して主観的な「硬さ感覚」と「空間の広さ感覚」をマグニチュード推定法を用いて硬さを推定する実験を行った.研究1の一部について,国内学会で発表し,そのプロシーディングを出版した.
著者
長田 若奈 酒向 慎司 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. EC, エンタテインメントコンピューティング (ISSN:09196072)
巻号頁・発行日
vol.2015, no.8, pp.1-6, 2015-02-23

我々は条件付き確率場を用いた習熟度に対応したバイオリン運指推定手法を提案してきた.しかし,推定運指は運指の自然さや演奏表現の適切さが不十分である問題があった.本論文では,従来よりも多くの楽譜情報を用いて素性の設計を行う.運指に関連する素性には様々なものが考えられるが,素性重みの学習に L1 正則化を用いることで,運指推定に寄与する重要な素性を判別する.実験では,基本的な素性だけを用いた従来法に対して教本運指との一致率が向上することを確認し,また,推定された運指の自然さに関してバイオリン経験者による主観評価を実施したところ提案法による有効性が確認できた.
著者
長嶋 祐二 原 大介 堀内 靖雄 酒向 慎司
出版者
工学院大学
雑誌
基盤研究(S)
巻号頁・発行日
2017-05-31

本研究では、手話の単語レベル、対話レベルから、言語学的な解析や手話工学分野で利用可能な、多用途型日本手話データベースを構築するための方法論の検討、並びに、データベースの構築を目的とする。令和元年度は、前年度までのテスト撮影の結果を踏まえ以下の項目に対して検討を行い本格的な3次元動作と映像のデータの収録を行った。(1)前年度までに撮影した言語資料 1,000単語の検証作業を行い、今年度撮影の方針を検討した。その結果、3次元動作データは、カメラ系と3次元系の同期解析、並びに、CG生成を考慮して、昨年度決めたフレームレートをとした。単語の収録では、表情などの非手指動作の詳細分析を考慮して、正面映像だけだった4Kカメラを左右の両側面を追加した。(2)今年度収録する言語資料は、7月までに手話母語者の研究協力者と共同で候補単語3,800単語のプロンプタ用の映像の撮影を終了した。これと並行して、対話撮影のためのテーマ検討も行った。本格的な収録は、8月から9月にかけて東映東京スタジオで収録した。対話撮影は、8テーマのデータベース収録候補の同期撮影を実施した。単語撮影は、3,873ラベルで総動作単語数では4,965単語の収録を行った。3年間で、合計4,873ラベルで総動作数では6,359単語の収録が完了した。当初の目標の5,000単語を上回る成果が得られた。(3)アノテーション支援システムでは、昨年度までに完成したビュワーの組み込みが完了して、支援部の3次元動作分析部分に着手した。(4)対話データ処理では、追加予算を含めて3対話の3次元動作データの生成が完了し、先行した部分は終了して、追加予算の部分は現在進行している。次年度のデータ公開へ向け単語収録データの分割並びにラベルの張替え作業も進行している。
著者
尾関 日向 酒向 慎司
雑誌
第82回全国大会講演論文集
巻号頁・発行日
vol.2020, no.1, pp.363-364, 2020-02-20

本研究では複数の楽器が混ざり合った音楽音響信号からギターパートを分離することを目的とする。音楽音響信号を対象にした音源分離は、楽曲が含む各パートの音源を必要とする自動採譜技術にとって欠かせないタスクである。従来はボーカルやドラムパートの分離が多く取り組まれてきたが、一般的に楽曲は他にも様々なパートを含んでおり、それらの分離も行わなければ実用的な自動採譜ができない。例えばギターはポピュラー音楽で頻繁に使用され、メジャーな構成要素である。そこでギターとボーカルに対して Wave-U-Net を用いてそれぞれのエンドツーエンド音源分離モデルを作成し、分離精度を比較した。
著者
山田 知彦 武藤 聡 南角 吉彦 酒向 慎司 徳田 恵一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2009-MUS-80, no.5, pp.1-6, 2009-05-14

HMM に基づく歌声合成は歌い手の特徴を歌声データと楽譜から自動学習し,任意のメロディからその特徴を再現した歌声を合成できる.その際,歌声の音色・発音と音高における歌い手の特徴を,それぞれスペクトルと基本周波数の時間変化として HMM でモデル化している.本稿では,歌唱表現のひとつであるビブラートを音高の周期的な揺らぎと仮定し正弦波でモデル化する.そのパラメータをスペクトル及び基本周波数と同時に HMM でモデル化する.歌声の合成実験では,女性 1 名による童謡 60 曲の歌声データを学習し,主観評価実験によってビブラートモデルの導入による自然性の向上が確認できた.
著者
全 炳河 大浦圭一郎 能勢 隆 山岸 順一 酒向慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.301-306, 2007-12-21

近年,隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
酒向 慎司 水野 理央 北村 正
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-85, no.3, pp.1-6, 2010-05-20

本報告では,管楽器アンサンブル奏者が自分たちの好みと希望に合わせた編曲楽譜を自動生成・支援するシステムを目的として,メロディ構造や各楽器の演奏難易度に基づいて入力メロディのパートを分配する問題を経路探索問題として定めた.伴奏・副旋律を生成する手法と組み合わせた編曲システムを実装し,得られた楽譜を用いて,アンサンブル演奏者による主観評価を実施した.評価結果を元に今後の課題と展望について考察する.
著者
奥村 健太 酒向 慎司 北村 正
出版者
日本知能情報ファジィ学会
雑誌
知能と情報 (ISSN:13477986)
巻号頁・発行日
vol.28, no.2, pp.557-569, 2016-04-15 (Released:2016-04-20)
参考文献数
26

本稿では,特定の演奏者が持つ表情の特徴に忠実な演奏の自動生成を目的とした手法を提案する.多くの既存手法は演奏生成に際して演奏者が有するような専門知識の入力を必要とする.それらは使用者自身が演奏者として介在する用途には有用であるが,本提案の目的には不向きである.提案手法では演奏者による実際の演奏事例から得られる表情の特徴に対し,楽譜から専門知識を用いることなく得られる情報を関連付けたモデルを定義する.さらに楽譜の指示を基準に用い,個々の演奏事例について定義したモデル群をその表情の特徴別に分類することで,任意の演奏事例に付与された表情の特徴と楽譜の指示との因果関係を体系的に記述した規則を構造化できる.この構造を辿ることで,未知の楽譜の指示に対応する演奏事例の候補が得られる.これらの候補の中から最適な表情を備えた演奏事例の系列を探索する問題を,動的計画法の適用によって解決する.客観評価実験により,提案手法は最適な事例の系列を効率的に探索できることを示した.また,主観評価実験によって提案手法による表情の品質の高さを確認したほか,多様な楽曲で演奏者に忠実な表情の特徴を再現できることを示した.なお,提案手法による演奏は,自動演奏表情付けシステムのコンテストにおいて自律生成部門の第1位を獲得している.