著者
嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.1994, no.40, pp.23-30, 1994-05-20
被引用文献数
18

いままで多数の研究者が、音声認識は有用な技術であると信じて研究開発に多大な努力を払ってきた。しかし、実際にはその実用化は思ったほどはかどってはいないようである。何が問題なのだろうか?何を解決すれば爆発的に実用になるのだろうか?この問題を議論するために、E?mailを用いた事前討論を開始し、多数の方々からの返答を得た。この報告書は、これら返答の中から筆者が取捨選択してまとめたものを基礎に、筆者の考えも加えて議論している。Although a number of researchers and engineers have paid considarable efforts in research and developement of automatic speech recognition technologies, speech recognition is not yet so widely used in the real world as we expected. What is the problem? What should be done to bring a boom of real applications to the speech recognition technology? To raise a wide-spread discussion, the author introduced an E-mail discussion on this problem. A number of replies have been received from speech researchers. This report includes summary of the E-mail discussion as well as author's own views.
著者
深山 覚 中妻 啓 米林裕一郎 酒向慎司 西本 卓也 小野 順貴 嵯峨山 茂樹
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2008, no.78(2008-MUS-076), pp.179-184, 2008-07-30

本稿では歌詞の韻律を用いた歌唱曲の新しい自動作曲手法を提案する。旋律を音の経路と捉え作曲を経路探索問題として定式化することで、任意の日本語の歌詞を用いた歌唱曲の自動作曲が、歌詞の韻律に基づく制約条件下での最尤経路探索問題を解くことで実現できることを示す。さらにこの作曲原理を実装した自動作曲システム "Orpheus" を用いて実際に楽曲生成を行い、作曲家による生成された楽曲に対する評価を踏まえて、今回の手法によって妥当な音楽性をもった歌唱曲が生成されたことを検証する。
著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
西本 卓也 嵯峨山 茂樹 藤原 扶美 下永 知子 渡辺 隆行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.11, pp.55-60, 2007-02-10
被引用文献数
4

我々は、視覚障害者と対面朗読者の音声対話を分析し、弁当屋のメニューから食べたいものを選ぶ対話が「分類や検索による大まかな選択」「お気に入りリストへの追加」「お気に入りリストからの最終決定」によって構成されていることなどを確認した。そこでこの知見を活かして、音声合成とキーボードで操作可能なウェブシステムを試作した。実装には XHTML を動的に生成するために PHP および PostgreSQL を使用し、ウェブアクセシビリティの配慮も行った。また、各ページをシンプルにして、一度に一つの操作だけを行わせるようにした。視覚障害者による評価実験の結果、既存のウェブサイトと比較して本システムが使いやすく有効であるという評価が得られた。A prototype lunch delivery Web system for the visually impaired was developed based on the analysis of human (the visually impaired who wants to order a lunch) to human (the sighted who helps the visually impaired to decide lunch by reading aloud lunch menu) dialog. Based on these analysis, a prototype system was developed, which consists of three steps: 1) rough selection (candidate items are roughly selected based on categories), 2) selection of favorites (favorite items are selected from candidate items and stored in the system), and 3) final selection (one item is selected with detailed information for each item). To generate XHTML document dynamically, PHP and PostgreSQL were used. The evaluation of the prototype system is performed by the visually impaired only with synthesized speech and key-board. The results showed that our system is effective and easy to use.
著者
大槻知史 齋藤 直樹 中井 満 下平 博 嵯峨山 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.2, pp.245-255, 2002-02-15

本稿では,隠れマルコフモデル(HMM)を用いて,人間が鍵盤入力した演奏情報(標準MIDIファイル)の発音時刻の間隔から,意図された音価列を復元推定する手法を提案し,実験によりその効果を実証する.人間が音楽演奏する際の物理的音長は,音価に対応する正規の長さから意識的・無意識的に揺らぐため,楽譜入力や自動採譜などでは,楽譜として意図された各音符の音価を正しく推定するのは容易ではない.そこで,連続音声認識の定式化にならって,音楽的な演奏を学習・認識する原理をHMMの手法を用いてモデル化する.さらに,同様の原理により小節線・拍子推定,テンポ変化推定も可能となることを示す.
著者
嵯峨山 茂樹 亀岡 弘和
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.64, no.12, pp.715-720, 2008-12-01 (Released:2017-06-02)
参考文献数
36
被引用文献数
1
著者
深山 覚 中妻 啓 酒向 慎司 西本 卓也 小野 順貴 嵯峨山 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.5, pp.1709-1720, 2013-05-15

日本語歌詞からユーザの意向を反映して多様な歌唱旋律を生成するための自動 作曲法があれば,歌のプレゼント,メールの歌い上げ,非専門家の創作支援な どが行える.本論文では初めに,自動作曲される旋律の多様性向上と音楽性の 保持の両立が難しいこ とを議論し,特に日本語歌詞から歌唱旋律を生成する際には,(1)音符数の変化 にかかわらず同じ印象を持つリズムの生成法と,(2)ユーザの意向,歌詞の韻律 と古典的な作曲法に基づ く制約条件を満たす音高列の生成法が必要であることを論じる.(1)については リズム木構造仮説に基づく方法,(2)については,動的計画法を用いた確率最大の音高系列 の探索により解決できることを示す.様々な制約条件のもと自動作曲した結果について専門家による評価を行ったと ころ,本手法によって古典的な歌唱旋律の作曲法からの逸脱の少ない旋律が生 成されることが示され,ユーザの意向を反映して多様な旋律を歌詞から生成す る方法として有効であることが分かった.
著者
嵯峨山 茂樹 板倉 文忠
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 A (ISSN:09135707)
巻号頁・発行日
vol.J83-A, no.11, pp.1244-1255, 2000-11-25

線形予測符号化(LPC)分析と複合正弦波モデル化(CSM)分析の間にあるエレガントな関係(ここではこれを対称性と呼ぶ)について述べる.目的は,LPC,PARCOR,CSM,線スペクトル対(LSP)などの音声スペクトルモデル化の理論に統合的な視点を与えることにある.これらの分析法はいずれもモデルの自由度に等しい個数の低次の自己相関関数を与えられたとき,モデルのパラメータを求める問題となっているが,LPCもCSMも,直交多項式の理論の観点から見ると,音声のパワースペクトル密度関数を重み関数として定義される単位円周上の直交多項式の理論(LPCの場合)及び実軸上の直交多項式の理論(CSMの場合)であり,定式化,各種のパラメータの定義,解法アルゴリズムなどに関して美しい対称性が成り立つ.また,直交多項式の観点からLSPに対して新しい解釈を与える.
著者
嵯峨山 茂樹 小野 順貴 西本 卓也 金子 仁美
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2008

数理モデルに基づいて音楽信号および音楽情報の解析・認識・加工・生成の多角的な研究を行い、多大な成果を生み出した。この中には、多重音の解析のために多重音モデルのパラメータ推定(HTC)に基づく方法、同じくスペクトログラムの非負値行列分解(NMF)に基づく方法、調波音と打楽器音の信号分離(HPSS)、スペクトログラムからの位相成分の復元に基づく楽曲の速度変換やピッチ変換などの高品質な信号加工、ステレオ音楽信号からのパート分離、人声に含まれる揺らぎ成分に基づく歌声の抽出と消去、音楽信号からの和声自動推定、楽曲を構成するリズムの自動学習と小節分割(RhythmMap)、それに基づく楽曲ジャンルやムードの自動分類、多声部音楽信号からのリズム構造推定と自動採譜、上位の音楽理論から下位の信号観測までを統合したDynamic Bayesian Net に基づく音楽モデルと自動採譜、楽譜データからの作曲家自動推定、確率場学習に基づく楽譜からの音楽的な自動演奏、テーマ模倣を含む自動対位法による自動作曲、歌詞の日本語韻律を利用した自動歌唱作曲、以上の研究を支える機能和声データベースの構築など、極めて広い範囲の研究成果を含む。これらは、ジャーナル論文、国際会議論文、解説論文、国内学会発表、自動作曲のwebサービス、メディアによる報道などにより社会に公表している。
著者
嵯峨山 茂樹 板倉 文忠
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. A, 基礎・境界 (ISSN:09135707)
巻号頁・発行日
vol.83, no.11, pp.1244-1255, 2000-11-25
参考文献数
26
被引用文献数
3

線形予測符号化(LPC)分析と複合正弦波モデル化(CSM)分析の間にあるエレガントな関係(ここではこれを対称性と呼ぶ)について述べる.目的は, LPC, PARCOR, CSM, 線スペクトル対(LSP)などの音声スペクトルモデル化の理論に統合的な視点を与えることにある.これらの分析法はいずれもモデルの自由度に等しい個数の低次の自己相関関数を与えられたとき, モデルのパラメータを求める問題となっているが, LPCもCSMも、直交多項式の理論の観点から見ると, 音声のパワースペクトル密度関数を重み関数として定義される単位円周上の直交多項式の理論(LPCの場合)及び実軸上の直交多項式の理論(CSMの場合)であり, 定式化, 各種のパラメータの定義, 解析アルゴリズムなどに関して美しい対称性が成り立つ.また, 直交多項式の観点からLSPに対して新しい解釈を与える.
著者
會田 卓也 西本 卓也 大川 茂樹 嵯峨山 茂樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.106, no.485, pp.85-90, 2007-01-18

我々は,視覚によらずに情報機器を操作する手段として,音声認識や音声合成が広く受け入れられるための総合的なヒューマンインタフェースのあり方を検討しており,特に,頭部モーションセンサにより認識したユーザの頭部動作を音声入出力と組み合わせる手法を検討している.今回は,頭部の角度および角速度を状態遷移モデルによって認識しつつ,誤認識を防ぐ配慮を行った頭部認識モジュールを実装し,評価を行ったので報告する.
著者
大槻知史 齋藤 直樹 中井 満 下平 博 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.2, pp.245-255, 2002-02-15
被引用文献数
12

本稿では,隠れマルコフモデル(HMM)を用いて,人間が鍵盤入力した演奏情報(標準MIDIファイル)の発音時刻の間隔から,意図された音価列を復元推定する手法を提案し,実験によりその効果を実証する.人間が音楽演奏する際の物理的音長は,音価に対応する正規の長さから意識的・無意識的に揺らぐため,楽譜入力や自動採譜などでは,楽譜として意図された各音符の音価を正しく推定するのは容易ではない.そこで,連続音声認識の定式化にならって,音楽的な演奏を学習・認識する原理をHMMの手法を用いてモデル化する.さらに,同様の原理により小節線・拍子推定,テンポ変化推定も可能となることを示す.This paper proposes the use of Hidden Markov Model (HMM) for rhythmrecognition from musical performance recorded in the standard MIDIfile format. Intentionally or unintentionally, physical durations ofmusical notes in human performances often fluctuate from nominallengths of the intended notes. Estimating intended note sequences is,therefore, not trivial for computers. In this paper, we formulate theprocess of understanding and recognizing musical rhythm patterns usingHMM similarly to continuous speech recognition (CSR). It is shownthat the same principle enables bar line allocation, beat recognition,and tempo estimation.
著者
金子 仁美 川上 大輔 嵯峨山 茂樹
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.7, pp.1-8, 2010-05-20

我々は,楽曲の和声解析の記述仕様 ("KS notation") を策定し,機能和声解析を行ってデータを作成し,その統計解析を行った.和声推定は自動採譜や楽曲検索など多数の目的に有用で,その和声進行の確率モデルの作成と統計学習のために有用である.また,音楽学的な見地からは,和声学の規則や傾向などが計量的に検証でき,時代や作曲者や楽曲スタイルを和声学的に解明する基礎となろう.機能和声記述のために,和音,転回,借用和音,省略,変位,転調,付加音などの記述を可能とし,さらに楽譜なしで演奏が可能なように音価も表現した.また,人間とコンピュータ双方の可読性の両立させコンパクトに表現できるようにした.データ作成には,RWC 音楽データベース所収のクラシック曲 50 曲について,人手により機能和声解析してデータを作成した.そのデータを統計解析し,音楽的な知見から説明を試み,機能和声モデルが従来のモデルより工学的和声モデルとして優位であることを示す.We designed a new notation (called "KS notation") for harmony analysis, built a functional harmony analysis dataset and made statistical analyses on the data. Harmony (chord sequence) estimation is useful in many purposes including automatic music transcription and music information retrieval, while, from musicological viewpoint, harmony theory and rules are verified quantitatively using the data across periods, composers and styles may be investigated. For description of functional harmony analysis, the notation include chord, inversion, borrowed chord, omission, alteration, key modulation, additional notes, etc. and enables playing chords from the notation without the score by representing the note value. Readability was emphasized both for human and computer. The KS-notation dataset was built from 50 titles included in the RWC classical music database. New findings are discussed based on statistical analysis of the data and functional harmony model is shown to be advantageous over the conventional chord sequence model from the engineering point of view.
著者
深山 覚 中妻 啓 米林裕一郎 酒向慎司 西本 卓也 小野 順貴 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.78, pp.179-184, 2008-07-30
被引用文献数
8

本稿では歌詞の韻律を用いた歌唱曲の新しい自動作曲手法を提案する。旋律を音の経路と捉え作曲を経路探索問題として定式化することで、任意の日本語の歌詞を用いた歌唱曲の自動作曲が、歌詞の韻律に基づく制約条件下での最尤経路探索問題を解くことで実現できることを示す。さらにこの作曲原理を実装した自動作曲システム "Orpheus" を用いて実際に楽曲生成を行い、作曲家による生成された楽曲に対する評価を踏まえて、今回の手法によって妥当な音楽性をもった歌唱曲が生成されたことを検証する。In this paper, we discuss a new algorithm for automatic song composition and introduce our new composition system named "Orpheus". We show that composing melody on Japanease lyrics can be done automatically by considering musical composition task as an optimal-path search problem under constraints of the upward and downward pitch motions given from the prosody of the lyrics. Valuation on the results generated by "Orpheus" by a musical composer is also reported, which indicates that our new system can compose a song with a proper degree of musicality.
著者
諸岡 孟 西本 卓也 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.77-82, 2008-02-09

我々は,自動作編曲に向けた音楽の生成モデルの構築を目的とし,人間が和声学を習得して作曲編曲を行うのと同様に,「コンピュータのための和声学」の確立を目指して,確率文脈自由文法に基づく手法を検討中である.本稿では,前挿入音と後挿入音の組み合わせで非和声音を表現した手法の改良の一つとして,非和声音を和音と和声内音との関係性によって分類した結果を利用し,より音楽的な非和声音の扱いが可能となるような確率文脈自由文法に基づく音楽生成モデルおよびその解析手法を考案したので,報告する.今回は音楽生成モデルを自動和声解析問題に適用し,音楽生成モデルから和声と楽譜が同時に生成され,楽譜のみが観測される場合に,隠れている和声を求める逆問題を解く.We are investigating the harmony theory for computers based on PCFG (Probabilistic Context Free Grammar) to model the music generation process toward automatic music composition and arrangement, simulating humans composing and arranging music using knowledge of harmony theory. We pay special attention on non-harmonic notes, and propose a PCFG-based method for musicological treatment of various non-harmonic notes by classifying relations between the chord and non-harmonic notes to improve the former approach to represent non-harmonic notes as inserted notes before and after harmonic tones. We apply the music generation model to automatic harmony analysis by solving the inverse problem to find the hidden chord sequence that has generated the given music score through the music generation model.
著者
武田 晴登 西本 卓也 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.109-116, 2006-08-08
被引用文献数
8

本研究は,楽譜をもとに電子楽器を演奏する演奏者に合わせて伴奏を再生させる自動伴奏の実現を目的としている.本報告では,自動伴奏の重要な構成要素である,演奏者の演奏位置を実時間で推定する楽譜追跡,及び,楽譜追跡の結果に基づいた適切なテンポで伴奏を再生させて実現される自動伴奏について議論する人間の実際の演奏では,演奏誤りや弾き直し,和音構成音の発音時刻のずれ等が含まれるので,時間順序通りに楽譜の音と演奏されたMIDI情報を対応させるだけでは楽譜追跡は実現できない.本稿では,楽譜追跡を演奏に対して最も確からしい拍位置を推定する確率的逆問題として扱い 演奏者の演奏の振舞をモデル化したHMM(Hidden Markov Model 隠れマルコフモデル)を用いた楽譜追跡を議論する更に,推定した演奏者の演奏位置の情報を用いて演奏者のテンポ曲線を推定し,演奏者に追従しながら音楽的に自然な伴奏の再生方法についても議論する.楽譜追跡手法の有効性を評価実験で確認し,また,自動伴奏システムを実装し動作を確認した.This research aims at automatic accompaniment that synchronizes the accompanying parts with the music being performed by human. This paper discusses both a method of score following that estimates performers beat position in music score, and automatic accompaniment system which plays accompaniment parts in the tempo determined by the results of the score following. Since real human performance may include performance error or repetition of the same phrases, score cannot be followed by simple matching performed notes with note in score in time order. To estimate the most probable score position for a given MIDI performance, we formulate the score following as a probabilistic inverse problem using HMM (Hidden Markov Models). This paper also discusses estimation of tempo curve from results of score following and accompaniment system that plays accompaniment parts with the tempo which is musically natural and follows the human performance. Expermental evaluation on score following and implementation of automatic accompaniment system are also reported.
著者
嵯峨山 茂樹 中妻 啓 深山 覚 酒向 慎司 西本 卓也
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
オペレーションズ・リサーチ : 経営の科学 (ISSN:00303674)
巻号頁・発行日
vol.54, no.9, pp.546-553, 2009-09-01
被引用文献数
3

本稿では,任意の日本語テキストの持つ韻律に基づき,歌唱曲を自動作曲する手法について解説する.文学作品や自作の詩,ニュースやメールなど,あらゆる日本語テキストをそのまま歌詞として旋律を生成し,歌唱曲として出力する自動作曲システムは,手軽な作曲のツール,音楽の専門知識を持たない人のための作曲補助ツールとして有用であろう.さらに著作権問題の回避としても用途があろう.歌唱曲は歌詞との関連性が求められる.特に高低アクセントを持つ日本語では,発話音声にピッチの高低が付くため,歌詞を朗読する際の韻律と旋律が一致することが重要とされる.筆者らはこの点に着目し,ユーザが選択した和声,リズム,伴奏音形を拘束条件として,旋律を音高間を遷移する経路とし,韻律の上下動の制限の下で最適経路となる旋律を動的計画法により探索する問題として旋律設計を捉えた.このモデルに基づき,任意の日本語歌詞に,その韻律に一致した旋律を付ける自動作曲手法により自動作曲システムOrpheusを作成したので紹介する.
著者
米林 裕一郎 亀岡 弘和 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. MUS,[音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.65, pp.7-12, 2006-05-13
参考文献数
4
被引用文献数
2

ピアノ曲演奏の運指をHMMを用いて自動決定するアルゴリズムを提案する。手の状態を「隠れ状態」とし、状態遷移から楽譜上の音符推移系列が出力されると考え、楽譜からViterbi探索により最尤状態遷移を求める。この手法により、指の独立性の難易度、黒鍵を含む鍵盤上での2次元的な指位置をモデル化できる。和音を含む両手の場合への拡張、音符長の考慮、学習、複数解の探索が可能な枠組みである。