著者
深山 覚 中妻 啓 米林裕一郎 酒向慎司 西本 卓也 小野 順貴 嵯峨山 茂樹
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2008, no.78(2008-MUS-076), pp.179-184, 2008-07-30

本稿では歌詞の韻律を用いた歌唱曲の新しい自動作曲手法を提案する。旋律を音の経路と捉え作曲を経路探索問題として定式化することで、任意の日本語の歌詞を用いた歌唱曲の自動作曲が、歌詞の韻律に基づく制約条件下での最尤経路探索問題を解くことで実現できることを示す。さらにこの作曲原理を実装した自動作曲システム "Orpheus" を用いて実際に楽曲生成を行い、作曲家による生成された楽曲に対する評価を踏まえて、今回の手法によって妥当な音楽性をもった歌唱曲が生成されたことを検証する。
著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
西本 卓也 嵯峨山 茂樹 藤原 扶美 下永 知子 渡辺 隆行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.11, pp.55-60, 2007-02-10
被引用文献数
4

我々は、視覚障害者と対面朗読者の音声対話を分析し、弁当屋のメニューから食べたいものを選ぶ対話が「分類や検索による大まかな選択」「お気に入りリストへの追加」「お気に入りリストからの最終決定」によって構成されていることなどを確認した。そこでこの知見を活かして、音声合成とキーボードで操作可能なウェブシステムを試作した。実装には XHTML を動的に生成するために PHP および PostgreSQL を使用し、ウェブアクセシビリティの配慮も行った。また、各ページをシンプルにして、一度に一つの操作だけを行わせるようにした。視覚障害者による評価実験の結果、既存のウェブサイトと比較して本システムが使いやすく有効であるという評価が得られた。A prototype lunch delivery Web system for the visually impaired was developed based on the analysis of human (the visually impaired who wants to order a lunch) to human (the sighted who helps the visually impaired to decide lunch by reading aloud lunch menu) dialog. Based on these analysis, a prototype system was developed, which consists of three steps: 1) rough selection (candidate items are roughly selected based on categories), 2) selection of favorites (favorite items are selected from candidate items and stored in the system), and 3) final selection (one item is selected with detailed information for each item). To generate XHTML document dynamically, PHP and PostgreSQL were used. The evaluation of the prototype system is performed by the visually impaired only with synthesized speech and key-board. The results showed that our system is effective and easy to use.
著者
深山 覚 中妻 啓 酒向 慎司 西本 卓也 小野 順貴 嵯峨山 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.5, pp.1709-1720, 2013-05-15

日本語歌詞からユーザの意向を反映して多様な歌唱旋律を生成するための自動 作曲法があれば,歌のプレゼント,メールの歌い上げ,非専門家の創作支援な どが行える.本論文では初めに,自動作曲される旋律の多様性向上と音楽性の 保持の両立が難しいこ とを議論し,特に日本語歌詞から歌唱旋律を生成する際には,(1)音符数の変化 にかかわらず同じ印象を持つリズムの生成法と,(2)ユーザの意向,歌詞の韻律 と古典的な作曲法に基づ く制約条件を満たす音高列の生成法が必要であることを論じる.(1)については リズム木構造仮説に基づく方法,(2)については,動的計画法を用いた確率最大の音高系列 の探索により解決できることを示す.様々な制約条件のもと自動作曲した結果について専門家による評価を行ったと ころ,本手法によって古典的な歌唱旋律の作曲法からの逸脱の少ない旋律が生 成されることが示され,ユーザの意向を反映して多様な旋律を歌詞から生成す る方法として有効であることが分かった.
著者
西本 卓也 光部 杏里 渡辺 隆行
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. WIT, 福祉情報工学 (ISSN:09135685)
巻号頁・発行日
vol.106, no.57, pp.27-32, 2006-05-12

ラジオ放送におけるスポーツ実況中継では,音声のみを用いて聞き手に視覚的なイメージを与えるための配慮がなされている.このような配慮は視覚障害者支援技術にも役立つことが期待される.そこで,競馬,野球,サッカーなどの実況中継におけるテレビおよびラジオのアナウンサーの発話内容を比較・分析した.競馬においては,レースの序盤,中盤,終盤,といった状況ごとに注目される対象の遷移が見られた.野球においては,テレビでは常時画面に表示されている得点やボールカウントなどの試合状況は,ラジオ中継では頻繁に音声で伝えられており,重要な情報ほど高頻度で発話されていた.またサッカーにおいては,連続的なゲームの展開を,間投詞を用いてシーンに分割して伝えていた.今後は,これらの知見を踏まえて,音声対話において空間的な状況の大局的な理解や説明を行うための具体的な方法について検討する予定である.
著者
嵯峨山 茂樹 小野 順貴 西本 卓也 金子 仁美
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2008

数理モデルに基づいて音楽信号および音楽情報の解析・認識・加工・生成の多角的な研究を行い、多大な成果を生み出した。この中には、多重音の解析のために多重音モデルのパラメータ推定(HTC)に基づく方法、同じくスペクトログラムの非負値行列分解(NMF)に基づく方法、調波音と打楽器音の信号分離(HPSS)、スペクトログラムからの位相成分の復元に基づく楽曲の速度変換やピッチ変換などの高品質な信号加工、ステレオ音楽信号からのパート分離、人声に含まれる揺らぎ成分に基づく歌声の抽出と消去、音楽信号からの和声自動推定、楽曲を構成するリズムの自動学習と小節分割(RhythmMap)、それに基づく楽曲ジャンルやムードの自動分類、多声部音楽信号からのリズム構造推定と自動採譜、上位の音楽理論から下位の信号観測までを統合したDynamic Bayesian Net に基づく音楽モデルと自動採譜、楽譜データからの作曲家自動推定、確率場学習に基づく楽譜からの音楽的な自動演奏、テーマ模倣を含む自動対位法による自動作曲、歌詞の日本語韻律を利用した自動歌唱作曲、以上の研究を支える機能和声データベースの構築など、極めて広い範囲の研究成果を含む。これらは、ジャーナル論文、国際会議論文、解説論文、国内学会発表、自動作曲のwebサービス、メディアによる報道などにより社会に公表している。
著者
會田 卓也 西本 卓也 大川 茂樹 嵯峨山 茂樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.106, no.485, pp.85-90, 2007-01-18

我々は,視覚によらずに情報機器を操作する手段として,音声認識や音声合成が広く受け入れられるための総合的なヒューマンインタフェースのあり方を検討しており,特に,頭部モーションセンサにより認識したユーザの頭部動作を音声入出力と組み合わせる手法を検討している.今回は,頭部の角度および角速度を状態遷移モデルによって認識しつつ,誤認識を防ぐ配慮を行った頭部認識モジュールを実装し,評価を行ったので報告する.
著者
深山 覚 中妻 啓 米林裕一郎 酒向慎司 西本 卓也 小野 順貴 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.78, pp.179-184, 2008-07-30
被引用文献数
8

本稿では歌詞の韻律を用いた歌唱曲の新しい自動作曲手法を提案する。旋律を音の経路と捉え作曲を経路探索問題として定式化することで、任意の日本語の歌詞を用いた歌唱曲の自動作曲が、歌詞の韻律に基づく制約条件下での最尤経路探索問題を解くことで実現できることを示す。さらにこの作曲原理を実装した自動作曲システム "Orpheus" を用いて実際に楽曲生成を行い、作曲家による生成された楽曲に対する評価を踏まえて、今回の手法によって妥当な音楽性をもった歌唱曲が生成されたことを検証する。In this paper, we discuss a new algorithm for automatic song composition and introduce our new composition system named "Orpheus". We show that composing melody on Japanease lyrics can be done automatically by considering musical composition task as an optimal-path search problem under constraints of the upward and downward pitch motions given from the prosody of the lyrics. Valuation on the results generated by "Orpheus" by a musical composer is also reported, which indicates that our new system can compose a song with a proper degree of musicality.
著者
諸岡 孟 西本 卓也 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.77-82, 2008-02-09

我々は,自動作編曲に向けた音楽の生成モデルの構築を目的とし,人間が和声学を習得して作曲編曲を行うのと同様に,「コンピュータのための和声学」の確立を目指して,確率文脈自由文法に基づく手法を検討中である.本稿では,前挿入音と後挿入音の組み合わせで非和声音を表現した手法の改良の一つとして,非和声音を和音と和声内音との関係性によって分類した結果を利用し,より音楽的な非和声音の扱いが可能となるような確率文脈自由文法に基づく音楽生成モデルおよびその解析手法を考案したので,報告する.今回は音楽生成モデルを自動和声解析問題に適用し,音楽生成モデルから和声と楽譜が同時に生成され,楽譜のみが観測される場合に,隠れている和声を求める逆問題を解く.We are investigating the harmony theory for computers based on PCFG (Probabilistic Context Free Grammar) to model the music generation process toward automatic music composition and arrangement, simulating humans composing and arranging music using knowledge of harmony theory. We pay special attention on non-harmonic notes, and propose a PCFG-based method for musicological treatment of various non-harmonic notes by classifying relations between the chord and non-harmonic notes to improve the former approach to represent non-harmonic notes as inserted notes before and after harmonic tones. We apply the music generation model to automatic harmony analysis by solving the inverse problem to find the hidden chord sequence that has generated the given music score through the music generation model.
著者
武田 晴登 西本 卓也 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.109-116, 2006-08-08
被引用文献数
8

本研究は,楽譜をもとに電子楽器を演奏する演奏者に合わせて伴奏を再生させる自動伴奏の実現を目的としている.本報告では,自動伴奏の重要な構成要素である,演奏者の演奏位置を実時間で推定する楽譜追跡,及び,楽譜追跡の結果に基づいた適切なテンポで伴奏を再生させて実現される自動伴奏について議論する人間の実際の演奏では,演奏誤りや弾き直し,和音構成音の発音時刻のずれ等が含まれるので,時間順序通りに楽譜の音と演奏されたMIDI情報を対応させるだけでは楽譜追跡は実現できない.本稿では,楽譜追跡を演奏に対して最も確からしい拍位置を推定する確率的逆問題として扱い 演奏者の演奏の振舞をモデル化したHMM(Hidden Markov Model 隠れマルコフモデル)を用いた楽譜追跡を議論する更に,推定した演奏者の演奏位置の情報を用いて演奏者のテンポ曲線を推定し,演奏者に追従しながら音楽的に自然な伴奏の再生方法についても議論する.楽譜追跡手法の有効性を評価実験で確認し,また,自動伴奏システムを実装し動作を確認した.This research aims at automatic accompaniment that synchronizes the accompanying parts with the music being performed by human. This paper discusses both a method of score following that estimates performers beat position in music score, and automatic accompaniment system which plays accompaniment parts in the tempo determined by the results of the score following. Since real human performance may include performance error or repetition of the same phrases, score cannot be followed by simple matching performed notes with note in score in time order. To estimate the most probable score position for a given MIDI performance, we formulate the score following as a probabilistic inverse problem using HMM (Hidden Markov Models). This paper also discusses estimation of tempo curve from results of score following and accompaniment system that plays accompaniment parts with the tempo which is musically natural and follows the human performance. Expermental evaluation on score following and implementation of automatic accompaniment system are also reported.
著者
嵯峨山 茂樹 中妻 啓 深山 覚 酒向 慎司 西本 卓也
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
オペレーションズ・リサーチ : 経営の科学 (ISSN:00303674)
巻号頁・発行日
vol.54, no.9, pp.546-553, 2009-09-01
被引用文献数
3

本稿では,任意の日本語テキストの持つ韻律に基づき,歌唱曲を自動作曲する手法について解説する.文学作品や自作の詩,ニュースやメールなど,あらゆる日本語テキストをそのまま歌詞として旋律を生成し,歌唱曲として出力する自動作曲システムは,手軽な作曲のツール,音楽の専門知識を持たない人のための作曲補助ツールとして有用であろう.さらに著作権問題の回避としても用途があろう.歌唱曲は歌詞との関連性が求められる.特に高低アクセントを持つ日本語では,発話音声にピッチの高低が付くため,歌詞を朗読する際の韻律と旋律が一致することが重要とされる.筆者らはこの点に着目し,ユーザが選択した和声,リズム,伴奏音形を拘束条件として,旋律を音高間を遷移する経路とし,韻律の上下動の制限の下で最適経路となる旋律を動的計画法により探索する問題として旋律設計を捉えた.このモデルに基づき,任意の日本語歌詞に,その韻律に一致した旋律を付ける自動作曲手法により自動作曲システムOrpheusを作成したので紹介する.
著者
長谷川 隆 西本 卓也 小野 順貴 嵯峨山 茂樹
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.53, no.3, pp.1204-1215, 2012-03-15

本論文では,音楽から受ける「作曲家らしさ」の印象を説明し定量的に測定できる工学的手法を目指して,音楽学における様式分析手法の1つであるラルーらの綜合的様式分析において論じられている様々な定性的特徴に対応する特徴量を提案する.対象データはMIDIデータとし,音の厚み等の音楽的な表現語の意味を解釈し,楽譜情報から計算可能な量を検討する.正準判別分析の作曲家推測精度を求めることにより,提案した特徴量群による特徴空間上で同作曲家の楽曲が近接して配置されていることが,判別分析結果の階層クラスタ分析により,時代・文化が類似していて類似した印象を受けると考えられる作曲家の特徴重心が近接して配置されていることが示された.以上から,提案した特徴群は「作曲家らしさ」の尺度として妥当性を持つと考えられる.The purpose of this paper is to establish technique to explain and measure "composer-characteristic" impression extracted from music. For that purpose, musical features are proposed by quantifying various qualities stated in Style Analysis by LaRue et al., one of musicological analysis methods. Input is assumed to be MIDI data, and measurable features from sheet music information are investigated by elucidating musicological descriptors such as "sound thickness". Composer discrimination accuracy evaluated with canonical discriminant analysis showed points of music by the same composer in the feature space of proposed features are placed nearby. In addition, the result of hierarchical cluster analysis showed centroids of similar composers with homogenous chronological and cultural backgrounds are also placed nearby. Therefore, the proposed features are presumed to be feasible for measuring "composer-characteristic" impression.
著者
長谷川 隆 西本 卓也 小野 順貴 嵯峨山 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.53, no.3, pp.1204-1215, 2012-03-15

本論文では,音楽から受ける「作曲家らしさ」の印象を説明し定量的に測定できる工学的手法を目指して,音楽学における様式分析手法の1つであるラルーらの綜合的様式分析において論じられている様々な定性的特徴に対応する特徴量を提案する.対象データはMIDIデータとし,音の厚み等の音楽的な表現語の意味を解釈し,楽譜情報から計算可能な量を検討する.正準判別分析の作曲家推測精度を求めることにより,提案した特徴量群による特徴空間上で同作曲家の楽曲が近接して配置されていることが,判別分析結果の階層クラスタ分析により,時代・文化が類似していて類似した印象を受けると考えられる作曲家の特徴重心が近接して配置されていることが示された.以上から,提案した特徴群は「作曲家らしさ」の尺度として妥当性を持つと考えられる.
著者
武田 晴登 西本 卓也 篠田 浩一 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.48, pp.21-26, 2003-05-16
参考文献数
12
被引用文献数
4

多重音を含む楽曲の演奏のMIDI(Musical Instruments Digital Interface)信号からの自動採譜に確率モデルを用いる。MIDI信号を対象とした場合は演奏の音高情報は既知であるので、リズム推定が必要である。演奏の速度が一定である場合は量子化によるリズム推定が容易であるが、演奏中にテンポが変動する曲では難しい。我々は、多声部に跨るIOI(発音時刻の間隔)から得られる相対的な音長情報であるリズムベクトルを確率モデルの特微量とし、モデルのパラメータ値を楽譜や演奏から学習する。実際の採譜手順は、同時発音の検出の後にIOIの時系列を求め、HMM(隠れマルコフモデル)を用いてIOIの時系列から最適なリズム譜を推定し、そしてリズム譜をもとに各音価の推定する。5人の奏者による電子ピアノの演奏に対して性能評価実験を行い、音価復元率として「フーガ」に対して92.2%、「トロイメライ」に対して52.1%を得た。This paper proposes an automatic transcription method for polyphonic musical performances in MIDI signals. Pitches and rhythms are basic information which is necessary to write scores. From the MIDI signals of human performance, we just need to recognize rhythms from time information in MIDI signals because pitches are already known in MIDI signals. We propose a method on rhythm recognition, especially targeting at polyphonic music performances. In the proposed probabilistic models for rhythm recognition, we use rhythm vectors, which are obtained from IOI(Inter- Onset Interval) sequence across the multi voices, as a feature of probabilistic models. Thevalues of parameters in our model can be optimized by the learning from scores and human performances. In experiments on performances by 5 piano players with an electronic piano, we obtained score restoration rates of 92.2% for"Fuga"and 52.1% for "Traumerai".
著者
武田 晴登 西本 卓也 嵯峨山 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.237-247, 2007-01-15

本論文では人間の音楽演奏を記録したMIDI(Musical Instrument Digital Interface)信号から,演奏されたリズムとテンポを推定する手法を議論する.我々は,音楽演奏には次の2 つの傾向が見られることに注目して最も尤もらしいリズムとテンポを推定する.(1) 演奏されるテンポは時間について連続で滑らかに変動する.(2) 演奏される曲のリズムは典型的なリズムパターンの組合せで表現される.テンポ曲線を仮定したとき,HMM(Hidden Markov Model,隠れマルコフモデル)を用いて事後確率を増加させる音価列を推定することができる.また,リズムを仮定したとき,区分的に連続であるテンポ曲線を事後確率を増加させるように更新することもできる.本手法は,このようにリズムとテンポの推定を交互に行う反復アルゴリズムであり,適切な初期値から出発すれば,事後確率最大化の意味で最適解に収束し,さらにテンポが不連続な変化をともなう場合も扱うことができる.本手法を用いて,テンポが変動する人間の実演奏を記録したMIDI データ37 曲に対して,81.9~85.5%の音価正解率を得た. 付録:<a href="http://www.ipsj.or.jp/08editt/contents/JNL4801/index.html#23"target="_brank">http://www.ipsj.or.jp/08editt/contents/JNL4801/index.html#23</a>
著者
米田 隆一 西本 卓也 嵯峨山 茂樹
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2005, no.129(2005-MUS-063), pp.31-36, 2005-12-23

本研究では、Standard MIDI File 楽譜等のシンボリックな音楽情報を入力として対旋律、和音、調等のラベルを付与する汎用的な手法を提案する。このような音楽のラベル付与問題は、音声認識における言語モデルとの類似性から、マルコフモデル、および生成モデルとしての HMM (hidden Markov models) を適用することが多かった。本研究でも確率モデルを踏襲するが、MIDI、楽譜などは、縦の和音、横の声部進行等、2次元的な情報であり、マルコフ連鎖のような一次元的なモデリングでは不十分である。このような背景のもと、より広いコンテキストを重視すべきであるという考えが生まれる。マルコフ確率場(Markov random field)モデルは、ノード間の関連をエッジであらわす一種の無向グラフモデルであり、エッジを設計することにより広いコンテキストを柔軟に設定できる。また、マルコフ確率場では我々の持つ音楽的知識を素性関数の設計(エッジの設計)という操作に還元することが可能、という利点を持つ。さらに、識別モデルであるという点でHMMとは異なり、可能なすべての出力系列を入力系列の条件付き確率として求めることができるという点で、条件付き確率場(conditional random fields)とも呼ばれる。本研究ではマルコフ確率場モデルに基いたさまざまな音楽情報処理に対するアプローチを論じる。本手法は汎用であり、応用範囲は多岐にわたるが、本稿では対旋律付け、和声付け、ドミナント定型句の同定、和声解析、調認識に対するアプローチを述べる。考えられる他の応用としては、リズム認識、楽曲のパージング、音楽情報検索など広範囲にわたる。
著者
西本 卓也 志田 修利 小林 哲則 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2176-2183, 1996-12-25
被引用文献数
32

マルチモーダルインタフェースの枠組みの中で音声入力がどのようにインタフェースの改善に貢献し得るかを検討し,そこで得た知見を生かしたマルチモーダル作図システムS-tgifを作成・評価した.システムの作成にあたっては,インタフェースの原則論に従って音声の特長である操作性および手順連想容易性を生かし,欠点である状態理解容易性,頑健性を他で補うよう努めた.評価実験の結果,システムの利用を開始してまもない時期あるいは一時利用を中断した後などにおいては特に音声の利用効果が高く,課題の完了までに要する時間を約80%に減少できた.ユーザがシステムに熟練すると音声の利用の客観的効果は薄れるが,特定のコマンドでは音声の利用率が90%を超え,また主観評価の結果でも高い評価を得るなど,音声入力はユーザから支持された.このように,インタフェースの原則論に従って音声の効果的利用を考慮することにより,有用なインタフェースを構築できることが示された.
著者
嵯峨山 茂樹 小野 順貴 西本 卓也 齋藤 大輔 堀 玄 中村 和幸 金子 仁美
出版者
国立情報学研究所
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

統計的信号処理と音楽理論の数理モデルを融合して、音楽(および音響・音声)の信号処理と情報処理に多面的に取り組んだ。音声認識分野では音響処理と言語処理の融合がキー技術であったように、音楽においては信号処理と音楽理論の融合が必須である。具体的には、A: 数理モデルと統計学習を軸にした音楽信号の解析・変換・加工・分離・検出、B: 音楽理論の数理的定式化を軸にした音楽信号の和音認識・リズム解析・セグメンテーション・構造解析・ジャンル認識、C: 機械学習と最適化を軸にした自動演奏・自動作曲・自動伴奏・自動編曲などを研究・開発した。
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
高橋 佳吾 西本 卓也 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.53, pp.61-66, 2003-12-21
参考文献数
8
被引用文献数
9 7

本報告では、多重音のモノラル音響信号の基本周波数を連続的な分布として出力する手法(Specmurt法)を提案する。多重音を構成する各音が共通した周波構造パターン(高調波成分間の強度比パターン)のスペクトルを持つ場合、対数周波数軸上では、これらの互いの関係は、同一の倍音パターン形状を平行移動した関係となる。これは、多重音の基本周波数の分布と共通調波構造パターンとの対数周波数軸上の畳み込みと解釈でき、基本周波数分布を人力、共通調波構造パターンをインパルス応答とした線形系の出力と考えることができる。共通調波構造パターンを仮定して、対数周波数領域に対するフーリエ領域で除算を用いて逆畳み込みを行えば、基本周波数を連続分布として求めることができる。その結果を濃淡表示すれば、スペクトログラムに似た基本周波数分布表示が得られる。実験を通して、基本的な理論を検証し、実際の音楽信号に適用し、効果を確認した。