著者
川岸基成 川渕将太 宮島千代美 北岡教英 武田一哉
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.13, pp.1-6, 2014-02-16

合唱歌唱時に生じる歌声の "引き込み" を利用して歌唱の基本周波数 (F0) を目標とする音高に誘導制御することを試みる.我々はこれまで,他者の歌声を受聴しながら歌唱したときの歌声への影響を歌声の引き込みという観点から分析し,1 つの質点と 2 つのばねで構成されるばね質量系を用いて,歌声の F0 動特性をモデル化した.本稿では,合唱歌唱の F0 動特性を表現するばね質量モデルを利用して歌唱の F0 を制御する手法を提案する.本手法では,合唱歌唱のばね質量モデルに基づき各歌唱者の引き込みの特徴を分析し,引き込みを考慮した誘導音を合成,受聴させることにより,目標音高に近づくように F0 を制御する.評価実験では,目標音高を受聴しながら歌唱した歌声と誘導音高を受聴しながら歌唱した歌声を目標音高との RMSE で評価し,誘導音高を受聴することで被験者 8 人中 5 人の RMSE が減少するという結果を得た.
著者
河原 達也 住吉 貴志 李晃伸 武田 一哉 三村正人 伊藤彰則 伊藤 克亘 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.100, pp.37-42, 2001-10-19
参考文献数
20
被引用文献数
24

連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.
著者
西村 竜一 梶田 将司 武田 一哉 板倉 文忠 鹿野 清宏
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827837)
巻号頁・発行日
vol.42, no.3, pp.605-613, 2001-03

本論文では, Webベースのオンライン教育環境に音声入力機能を加えるWebSPEAC(Web SPEech Acquisition for Courseware)Systemを提案する.これまで, Webベースオンライン教育環境では, 音声を出力する教材の作成は可能だったが, 音声入力のできる教材やコミュニケーションツールの提供はできなかった.本システムは, (1)Webブラウザには音声入力機能のみを提供し, 音声を用いるアプリケーションプログラムはWebサーバ上で一括管理するので保守性が高い, (2)クライアント側は, 簡単な初期設定のみで利用できる, (3)サーバプッシュを利用してWebでの音声入力インタフェースを実現している, という特徴があり, 音声を用いたインタラクティブなWebベースのオンライン教材の作成を可能にする.また, 本システムの応用例として, Webベースの入力音声分析ソフトウェア, 音声確認システム, 受験者認証システムを作成した.このうち, 音声入力部分について, 入力音声分析ソフトウェアを利用してファイルアップロードによる従来システムとの比較実験を行った.その結果, 本システムはステップ数, 誤りステップ数, タスク完了時間において操作コストを削減できることが確認できた.
著者
川渕将太 宮島千代美 北岡教英 武田一哉
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.2, pp.1-6, 2013-03-08

楽曲検索に関して,楽曲の音響情報を用いて楽曲間の主観的類似度を推定する手法について検討する.本研究では,楽曲間の主観的類似度は楽曲間の音響的類似度と聴取者の個人性により決定されると考える.本研究はこのうち聴取者の個人性に焦点を当て,聴取者間にどのような差異があるかを明らかにし,主観的類似度推定のモデルに組み込むことを目的としている.聴取者の個人性に関する先行研究の結果より,楽曲が音響的にどの程度似ていたら似ていると感じるかに大きな個人差が存在することが示唆された.本稿ではこの 「音響的にどの程度似ていたら似ていると感じるか」 を聴取者の 「許容度」 と呼び,許容度を含んだ主観的類似判定のモデルを提案する.実験では,楽曲間類似度の主観評価データを用いて聴取者の許容度を推定すると共に,実用の場面においてこの許容度を少数の類似性評価の結果を用いて推定することが可能であるかを確認する.
著者
李 晃伸 河原 達也 武田 一哉 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.12, pp.2517-2525, 2000-12-25
被引用文献数
47

大語彙(い)連続音声認識のための新たなphonetic tied-mixture(PTM)モデルを提案する.このモデルは各音素モデル(monophone)の各状態がもつ64個のガウス分布集合をtriphoneの対応する状態に割り当て, 重みのみを変えて共有することで合成する.通常の状態共有triphoneに比べて音響空間を効率良く表現でき, また巨大なコードブックを要する従来のtied-mixtureモデルよりも学習が容易である.2万語の新聞記事読み上げタスクにおいて評価した結果, triphoneでの最大性能に近い7.0%の単語誤り率をより少ないパラメータ数で達成した.処理効率の点においては, 音響スコア計算に用いるガウス分布を上位3%にまで削減しても精度がほとんど低下しなかった.いくつかのガウス分布の足切り計算(Gaussian pruning)手法を提案及び比較した結果, 最終的に音響ゆう度計算を約5分の1にまで削減できた.
著者
大石康智 亀岡 弘和 柏野 邦夫 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.78, pp.89-96, 2008-07-30
被引用文献数
1

歌声の基本周波数 (F0) 軌跡から,歌唱者が意図する旋律概形と歌声の動的変動成分を同時推定する手法を提案する.これまで,旋律概形を表す区分的に一定な階段状の入力信号に、ビブラートやオーバーシュートなどの動的変動因子を表す 2 次系のインパルス応答を畳み込むことによって,F0 軌跡を生成するための制御モデルが提案された.しかし,観測される F0軌跡だけから,それぞれの信号を推定する逆問題は不良設定問題であるため,従来のモデルではこの問題を解くことができなかった.そこで,我々は階段状の拘束をもつ特殊な入力信号を隠れマルコフモデル (HMM) でモデル化し,2 次系を含むシステムの伝達関数を全極モデルで表現することで,Viterbi 学習と線形予測分析 (LPC) 的な解法の反復により,モデルパラメータを効率的に推定するアルゴリズムを提案する.本稿ではその定式化と実装を行い,観測される F0 軌跡から旋律概形と動的変動成分をともに推定できること,さらに推定されたパラメータによって F0 軌跡を生成可能であることを確認する.In this paper, we propose a novel representation of F0 contours that provides a computationally efficient algorithm for automatically estimating the parameters of a F0 control model for singing voices. Although the best known F0 control model, based on a second-order system with a piece-wise constant function as its input, can generate F0 contours of natural singing voices, this model has no means of learning the model parameters from observed F0 contours automatically. Therefore, by modeling the piece-wise constant function by Hidden Markov Models (HMM) and approximating the transfer function of the system by the all-pole model, we estimate model parameters optimally based on iteration of Viterbi training and an LPC-like solver. Our representation is a generative model and can identify both the target musical note sequence and the dynamics of singing behaviors included in the F0 contours. Our experimental results show that the proposed method can separate the dynamics from the target musical note sequence and generate the F0 contours using estimated model parameters.
著者
黒岩 眞吾 武田 一哉 井ノ上 直己 野垣内 出 山本 誠一 庄境 誠 尾和 邦彦 長濱 克昌
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. A, 基礎・境界 (ISSN:09135707)
巻号頁・発行日
vol.77, no.2, pp.223-231, 1994-02-25
被引用文献数
6

内線電話への接続をタスクとする音声対話システムを作成した.同システムは200人規模の組識の電話受付業務を行うもので,電話で所属と名前を言うだけで相手の内線に電話をつなぐシステムである.不特定話者の連続音声認識を実時間で行うために専用のハードウェアを開発した.ハードウェアは浮動小数点DSP9個を疎結合マルチプロセッサ方式で結合し,パイプライン処理により,エコーキャンセル,音響分析,HMMのゆう度計算および単語レベル,文法レベルでのビタビ演算を並列に実行する,並列化にあたっては,最も処理の重くなったプロセッサにプロセッサ間のデータ転送に伴う待ち時間が生じないようなパイプラインスケジューリングを行っている.また,タスクサイズが大きくなッた場合でも音響分析は一定の周期で行えるよう同期処理,非同期処理を混在させた構成とした.電話回線経由で収集した400名の発声による音素バランス4,000文を用いて学習した音素モデルを用い実環境で評価したところ,91%の呼に対して正しい相手の内線番号が案内でき,それに要した平均所要時間は41秒であり,多くのユーザによる利用が期待できる性能であることが確認された.
著者
梶田 将司 小林 大祐 武田 一哉 板倉 文忠
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.53, no.5, pp.337-345, 1997-05-01
被引用文献数
31

人間が音声として知覚する音がその他の音とどのように異なるのかを探求するため, 本研究では, ヒューマンスピーチライク(HSL)雑音を導入し, HSL雑音に含まれる音声的特徴を分析する。HSL雑音は, 複数の音声を加算的に重畳して作られるバブル雑音の一種で, その重畳回数に応じて音声的な信号から音声の長時間スペクトルを反映した定常雑音へと聴感は変化する。まず, この聴感上の変化を主観評価実験により定量化する。そして, HSL雑音に含まれる音声的特徴を振幅分布のガウス性, スペクトル微細構造の時間的変動性, スペクトル包絡の時間的変動性の三つの観点で分析した。その結果, HSL雑音の差分信号のガウス性及び, HSL雑音のスペクトル包絡の時間的変動が音声的特徴に大きく寄与していることが分かった。
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。
著者
白勢 彩子 原 直 藤村 浩司 伊藤克亘 武田 一哉 板倉 文忠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.124, pp.253-258, 2003-12-19

本研究は,音声対話システムの利用に必要な知識,技術の学習過程および問題点を明らかとし,これらがシステム評価に与える影響を検討するため,実システムを用いた観察実験を行ない,それによって得られた結果に基づいて,ユーザの達成度とアンケートによるシステム評価との関連性に関する基礎的な議論を行なった.分析の結果,発話認識率と発話数とに相関がある評価項目はほとんどなく,むしろ,会話満足度,システム理解度と多く関連することが明らかとなった.従来,認識率とシステム評価とがよく一致することが知られているが,他の観点からの評価も考慮する必要があることが示唆された.今後は,被験者数を増大させて条件を統制した実験を行ない,より詳細な議論をしていきたい.This study aims to describe user problems and process of learning skill in using spoken dialogue systems and to reveal how these impact on the evaluation of the system usefulness. For this aim, we designed a new dialogue system and carried out a field test for a large number of subjects and asked them to evaluate the usefulness of the system. The results showed that the evaluation of the system did not correlate a recognition rate but user satisfaction and comprehension. This suggested that the spoken dialogue systems should be evaluated in terms of user factors. Controlled experiments are needed to discuss in detail.
著者
大石康智 後藤 真孝 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.113, pp.3-8, 2006-10-27
被引用文献数
5

メロディを歌っても,曲名を読み上げても検索可能な楽曲検索システムを提案する.このシステムは,歌声と曲名の読み上げ音声(朗読音声)を自動識別するため,ユーザはシステムの入力モードを切り替えるのではなく,入力音声の発話様式を切り替えるだけで,シームレスに楽曲を検索することができる.これまでに我々が提案した音声識別器を実装し,歌声と識別されれば,ハミング検索手法によってメロディから曲を検索する.一方,朗読音声と識別されれば,音声認識によって書き起こされた曲名から曲を検索する.大規模な歌声データベースを利用して提案システムの評価実験を行った結果,歌声と朗読音声の自動識別性能は96.1%であった.さらに,検索キーのハミング検索,音声認識によって100曲中10位以内に正解の曲が含まれる平均検索率は,それぞれ50.5%と96.7%であった.We propose a music retrieval system that enables a user to retrieve a song by two different methods: by singing its melody or by saying its title. To allow the user to use those methods seamlessly without changing a voice input mode, a method of automatically discriminating between singing and speaking voices is indispensable. We therefore designed an automatic vocal style discriminator and built a music retrieval system that retrieves a song by query-by-humming for singing voice or by dictating the song title by automatic speech recognition (ASR) for speaking voice. Experimental results with a large music database built for singing research show that our system is able to discriminate between singing and speaking voices with 96.1%. The average retrieval rates of correct songs in the top 10 of 100 songs by query-by-humming and ASR for song titles are 50.5% and 96.7% respectively.