著者
溝渕 翔平 西村 竜一 入野 俊夫 河原 英紀
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2015-MUS-107, no.60, pp.1-6, 2015-05-16

本研究では提案法を用いて通常歌唱音声にグロウル系歌唱の特徴を付与した際の印象を評価した.これまでの研究よりグロウル系歌唱音声特有の物理的特徴として 「1k~4kHz の帯域強調」,「基本周波数の振動」 及び,「スペクトル形状の高速な時間変動」 が確認された.従来法である 「スペクトル形状の高速な変動」 を付与したモデルは,観察された現象を表面的に模擬するために 4 個のガウス関数を組み合わせたものであり,声質の表現や発声の機構を考慮したものでは無かった.本研究では 「スペクトル形状の高速な時間変動」 を披裂喉頭蓋の形状変化と声帯音源波形の時間変化の相互作用としてモデル化することで,グロウル系歌唱音声の特徴を付与する手法をこれまでに提案した.本稿では,従来法と提案法を変換後の歌唱音声の一対比較実験により評価した.結果をサーストンの一対比較法により分析した結果,提案法がグロウル系歌唱音声の印象を付与するのに効果的であることが示唆された.
著者
西村 竜一 西原 洋平 鶴身 玲典 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.87, no.3, pp.789-798, 2004-03-01
被引用文献数
65

実環境下での音声インタフェースの研究プラットホームとして,生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムは,大語彙連続音声認識を基礎とする一問一答形式の音声インタフェースをもち,同センターや生駒市に関する受付案内を可能とする.システムはセンターのエントランスに常設され,開館時は誰でも自由にエージェントとのコミュニケーションを楽しむことができる.ユーザとシステムとのインタラクションの観察を目的とした5か月間にわたる本システムのフィールドテストを実施し,ユーザによる発話ログの収集を行った.本論文では,はじめに音声インタフェース部を中心に本システムの構成について説明する.フィールドテストの結果,男女幅広い年齢層のユーザによる発話を含む約1,362分の音声データを収集した.その分析の結果から,大人と子供で発話内容の傾向に違いはあるが,本システムは有効に利用されていることを示す.実験では,実際のユーザ発話によるベースラインの認識性能の評価を行い,大人に対して86%の単語認識率と76%の応答正解率を得ることができた.しかし,子供のユーザに対する精度が十分でないなど,音声インタフェースの実用化に向けて多くの課題が残されていることを確認した.
著者
小林 真優子 西村 竜一 入野 俊夫 河原 英紀
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-99, no.47, pp.1-6, 2013-05-04

声を聴くと,何となくその人の体型が分かる.ここでは,母音だけを用いて相対的な声道長を推定する方法を提案する.この方法では,声道長以外の要因によるスペクトル形状変化の影響を軽減するために,スペクトル距離の計算に用いる帯域を制限し,スペクトルの大局的な平坦化と形状の過度な詳細の平滑化とを組合せている.6歳から56歳までの284名の男女が発声した母音と身体情報からなるデータベースを用いることで,これらの処理に用いるパラメタを決定した.母音だけを用いた簡易な方法にも関わらず,以前報告した聴覚モデルを用いた方法を凌駕する精度での声道長推定が可能であることを確認した.また,このデータベースに付与された身体情報を母音だけから推定できることを示した.
著者
河原 英紀 森勢 将雅 西村 竜一 入野 俊夫
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-95, no.4, pp.1-6, 2012-05-26

シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の (基本周波数の) 周波数変調と、同様に、高速の (スペクトル包絡の) 振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ (生々しさ) を制御できる可能性が示された。
著者
溝渕 翔平 西村 竜一 入野 俊夫 河原 英紀
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-103, no.55, pp.1-6, 2014-05-17

本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与する GUI について紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIR フィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第 3 フォルマント周辺の高速な時間変調の付与の 3 つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUI の開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発した GUI は実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.
著者
溝渕 翔平 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.114, no.52, pp.279-284, 2014-05-17

本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与するGUIについて紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIRフィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第3フォルマント周辺の高速な時間変調の付与の3つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUIの開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発したGUIは実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.
著者
西村 竜一 内田 賢志 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.522, pp.93-98, 2001-12-13
被引用文献数
5

ASKA(アスカ)は, 大学の受付案内システムを目標として開発中の頭部や腕のジェスチャ機能を持つ人間型音声対話ロボットである.音声対話機能は, 大語彙連続音声認識エンジンJuliusと学内案内タスク向けN-gram言語モデルを基礎としたキーワード検索による音声認識理解部と音声合成部によって構成されており, 対人センサやジェスチャ生成などの他のモジュールと状態を通信しながら分散的な動作を行なう.本ロボットは, 奈良先端大における学内共同プロジェクトで開発されており, エージェントシステムにおける様々な要素技術の実環境での検証プラットフォームと位置付けられている.今後も新たな要素技術を採り入れながら開発を続ける予定である.本稿では, 音声対話機能の実装方法を中心に現在のASKAの概要および今後の予定について述べる.
著者
長友 健太郎 西村 竜一 小松 久美子 黒田 由香 李晃伸 猿渡 洋 鹿野 清宏
出版者
電子情報通信学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.9, pp.2884-2893, 2002-09-15
参考文献数
15
被引用文献数
23

高精度な言語モデルの融合手法として,相補的バックオフアルゴリズムに基づく融合アルゴリズムを提案するとともに,それを用いた言語モデルの融合ツールを構築した.N-gram言語モデルは,学習元のコーパスの話題や知識,語調や発話様式などの特徴を反映する.そのため,タスクごとの特徴を反映した複数の言語モデルを融合することで,より多様な入力に対処できるモデルを構築できる.この言語モデルの融合において,既存の融合手法では,モデルの持つ特性が損なわれるためタスクに対する特徴がぼやけてしまう.また,従来手法である学習元コーパスの単純な結合および再学習による融合を行うためには,学習元のコーパス自体が必要になる.これに対して,他方のモデルには現れない未観測N-gramの生起確率を他方のモデルから相互に推定する高精度な相補的バックオフアルゴリズムを提案する.さらに本手法を用いて,学習元コーパスが不要で利便性の高い言語モデル融合ツールを構築した.実際に医療相談,グルメ・レシピ検索および新聞記事の各タスクの言語モデルを融合し,それらを評価した結果,各モデルの特性をなるべく保存しながら,コーパス結合モデルと比較しても精度が劣化しないモデルを得ることができた.A new complemental back-off algorithm for merging two N-gram languagemodels is proposed. By merging several topic-dependent orstyle-dependent models, we can construct a general model that coverswider range of topics easily. However, a conventional method thatsimply concatenates the training corpora or interpolating eachprobabilities often levels off the task-dependent characteristics in each languagemodels, and weaken the linguistic constraint in total. We propose anew back-off scheme that assigns the unseen N-gram probabilitiesaccording to the probabilities of the another model. It can assignmore reliable probabilities to the unseen N-grams, and no originalcorpora is needed for the merging. We implemented a command tool thatrealizes this method, and evaluated it on three recognition tasks(medical consulting, food recipe query and newspaper article). The results reveal that our merged model can keep the same accuracy of each original one.
著者
入野 俊夫 河原 英紀 津崎 実 西村 竜一
出版者
和歌山大学
雑誌
基盤研究(B)
巻号頁・発行日
2009

音声知覚の基盤となる聴知覚特性を明確にし、数理的な理論の構築/検証を行った。1)寸法・形状知覚:発声方法による寸法弁別閾の違いが無いことや時間特性を明確にした。2)聴覚フィルタ特性/難聴者・健聴者の聴知覚特性:聴覚フィルタの周波数選択性や圧縮特性の同時測定と、模擬難聴を実現できる枠組みを世界に先駆けて開発した。3)機能的磁気共鳴像(fMRI)実験:音声からの寸法知覚の情報処理の座に関して知見を得た。4)音声知覚モデル化/音声・音響処理:理論的な背景をもとに話者の声道長推定が精度良くできることを示した。また、知覚的音響処理の改善も行った。
著者
坂野 秀樹 森勢 将雅 高橋 徹 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.551, pp.157-162, 2008-03-13
被引用文献数
2

実時間動作するSTRAIGHT,リアルタイムSTRAIGHTの改良を行ったので,その詳細について報告する.高品質音声分析変換合成法STRAIGHTは極めて高品質であり,合成システムや聴覚実,験用のツールとして広く利用されるようになってきている.STRAIGHTは,MATLABによって実装されており,オフラインでの処理にはこれが広く用いられているが,実時間で動作するものではない.そこで,我々は,実時間で動作するリアルタイムSTRAIGHTをC言語による実装で構築してきた.今回は,まず,C言語によるSTRAIGHTの実装であるC言語版を,MATLAB版STRAIGHTの最新版と同等のものに更新した.そして,このC言語版の関数の一部を利用し,リアルタイムSTRAIGHTのスペクトル抽出部分を改良した.改良したリアルタイムSTRAIGHTを用いて主観評価実験を行った所,MOS値が3.4となり,これまでのリアルタイムSTRAIGHTに比べ0.7程度改善したことが分かった.また,C言語版STRAIGHTにおいては,バージョンによるAPIの違いが大きいという問題があった.今回,このような問題を解決したC言語版STRAIGHTのAPIを策定し,STRAIGHTライブラリとして実装した.
著者
武政 尚太 諸井 克哉 下前 祐也 石橋 智博 西村 竜一 新苗 正和
出版者
一般社団法人 資源・素材学会
雑誌
Journal of MMIJ (ISSN:18816118)
巻号頁・発行日
vol.139, no.10, pp.47-51, 2023-10-31 (Released:2023-10-28)
参考文献数
10

Ru(III) chlorocomplexes are poorly extracted into organic solvents, which is due to the charge of the complex as well as those inert character in chloride solutions, that is, formation of RuCl6-n(H2O)n(3-n)- (n=0-6). Therefore, it is difficult to extract Ru(III) by solvent extraction, and Ru(III) is currently separated and purified by the oxidative distillation method. If Ru can be separated and recovered from chloride solutions by solvent extraction, an efficient separation and recovery process for PGMs can be established. Therefore, it is important to investigate the solvent extraction of Ru(III) from chloride solutions. The authors have previously studied solvent extraction of Ru(III) with 2-ethylhexylamine (EHA), which is a primary amine extractant, from chloride solutions and shown that the extraction of Ru(III) with EHA from chloride solutions without the addition of Sn (II)was high. However, the stripping of Ru(III) was difficult. In the present study, extractions of Ru from hydrochloric acid solutions with EHA and octylamine (OA), which are primary amines, were tested to clarify the extraction of Ru and the stripping of Ru with various stripping solutions. The extraction efficiency of Ru with EHA and OA from hydrochloric acid solutions without the addition of Sn (II) was high. And also, it was found that Ru could be easily stripped from EHA with sodium sulfate solutions.
著者
西村 竜一 末永 司 鈴木 陽一 田中 章浩
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.64, no.2, pp.63-72, 2008-02-01 (Released:2017-06-02)
参考文献数
19
被引用文献数
1

近年,一定の音質劣化を許容した符号化法が多く開発されている。これらの技術にはマスキングなど比較的末梢系に由来する聴覚特性が用いられている。しかし,人間は音の知覚の際にこれらの技術に用いられている聴覚特性以外にも多くのものを利用していると考えられる。そのような高次機能も含めた聴覚処理機構によって音質劣化がどのように知覚されるのかを,音質劣化を直接評価する評定実験とSD法による印象評定実験によって解明することを試みた。その結果,音質劣化が大きくなると共に美的・叙情的因子,明るさ因子が低下することが分かった。また,一部の刺激では,直接的な評価によっては知覚されなかった音質劣化が,印象の差として知覚されている様子が観察された。
著者
西村竜一
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.41-42, 2013-03-06

本研究では、自動音声認識技術を応用して、生体情報の一つである発話を入力とした大人・こども話者識別法の開発を行っている。これまでの報告では、統計的識別器の特徴量に、入力発話の音響信号を周波数分析等して抽出した音響的なパラメータを利用して一定の識別性能を得ることに成功した。しかし、自由発話には、利用者が好んで利用する語彙や言い回し等の分布に起因する言語的な特徴が含まれる。本研究では、音声ウェブシステムを介して集めた実環境発話(「あなたの好きなことばは何ですか?」に対する返答)を対象に、年齢層に応じて傾向が異なる言語的特徴を明らかにした上で、識別器の入力として音響的特徴と併用することを検討する。
著者
河原 英紀 森勢 将雅 西村 竜一 入野 俊夫
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.4, pp.1-6, 2012-05-26

シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の (基本周波数の) 周波数変調と、同様に、高速の (スペクトル包絡の) 振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ (生々しさ) を制御できる可能性が示された。Strong expressions such as "shout" and "death voice" are common in popular singing. However, current singing synthesis systems are not good at handling these strong expressions and are not capable of using them to expand their limit of expressiveness. This is the topic this article tries to address. A set of singing voice analysis tests was conducted using our newly developed F0 extraction method, which has high temporal resolution and is light-weighted, and TANDEM-STRAIGHT for spectral envelope analyses. This test revealed that expressive singing voices consist of high-speed frequency as well as amplitude modulations in F0 and spectral envelope respectively. In one typical case, about 20 dB higher modulation frequency spectral peak was found around 70 Hz for expressive performance than that of normal performance. Preliminary tests suggested that selective control of "expressiveness" can be implemented by manipulating these high-speed modulations while preserving vocal register and effort intact.
著者
鈴木 陽一 西村 竜一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会誌 = The journal of the Institute of Electronics, Information and Communication Engineers (ISSN:09135693)
巻号頁・発行日
vol.93, no.5, pp.392-396, 2010-05-01
参考文献数
13
被引用文献数
2

立体映像や高精細映像などの技術が実用的な段階へと進むに伴い,空間的な情報を正しく再現できる音響技術の必要性も高まっている.頭の中に音の広がりを感じるのではなく,実空間中の確かな位置や方向に音源を知覚させる技術,すなわち高精度聴覚ディスプレイは,立体音響や空間音響などと呼ばれ,古くから研究が行われてきた.そこで,人がどのようにして,左右たった二つの耳で受信した2チャネルの一次元信号から空間を知覚しているのかを解説するとともに,立体音響から始まるこれまでの臨場感音響研究のアプローチと,それに基づく聴覚ディスプレイ技術の発展について概観し,将来の動向を展望する.
著者
鹿野 清宏 Cincarek Tobias 川波 弘道 西村 竜一 李晃伸
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2006, no.107(2006-SLP-063), pp.33-38, 2006-10-20

筆者らは生駒市北コミュニティセンターに、音声情報案内システム「たけまるくん」を設置して、2002年11月から4年間運用している。最初の1年半あまり、精力的にシステムの改良を行い、現在では、子供を中心とする多くの市民に利用されている。このシステムは、大語彙連続音声認識プログラムJulius を用いた4万語あまりの大語彙の連続発声認識を中心に構築された本格的な自由発話による音声情報案内システムである。また、入力された音声や雑音はすべて収録され、とくに最初の2年間は書き起こしが終了している。この2年間の書き起こしデータを用いることによるシステムの性能の向上の予備評価についても報告する。このたけまるくんの成果を活かして、今年の3月末に、奈良先端大の近くの近鉄の駅「学研北生駒」に、独立した2つの音声情報案内システム「キタちゃん」と「キタロボ」を設置した。駅は60dBAと、コミュニティセンターに比べて、騒音レベルが10dB程度高く、厳しい音声認識の利用条件である。「キタちゃん」は、たけまるくんと同様にCGエージェントが応答する型で、タッチパネルも併用できる大人向けのシステムである。「キタロボ」は、ロボット型インタフェースで、どちらかというと子供向きのシステムである。この両システムの運用も6ヶ月間になるが、良好に動作している。たけまるくんからこの両システムへのポータビリィティについても述べる。
著者
鹿野 清宏 Cincarek Tobias 川波 弘道 西村 竜一 李晃伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.107, pp.33-38, 2006-10-20
被引用文献数
9

筆者らは生駒市北コミュニティセンターに、音声情報案内システム「たけまるくん」を設置して、2002年11月から4年間運用している。最初の1年半あまり、精力的にシステムの改良を行い、現在では、子供を中心とする多くの市民に利用されている。このシステムは、大語彙連続音声認識プログラムJulius を用いた4万語あまりの大語彙の連続発声認識を中心に構築された本格的な自由発話による音声情報案内システムである。また、入力された音声や雑音はすべて収録され、とくに最初の2年間は書き起こしが終了している。この2年間の書き起こしデータを用いることによるシステムの性能の向上の予備評価についても報告する。このたけまるくんの成果を活かして、今年の3月末に、奈良先端大の近くの近鉄の駅「学研北生駒」に、独立した2つの音声情報案内システム「キタちゃん」と「キタロボ」を設置した。駅は60dBAと、コミュニティセンターに比べて、騒音レベルが10dB程度高く、厳しい音声認識の利用条件である。「キタちゃん」は、たけまるくんと同様にCGエージェントが応答する型で、タッチパネルも併用できる大人向けのシステムである。「キタロボ」は、ロボット型インタフェースで、どちらかというと子供向きのシステムである。この両システムの運用も6ヶ月間になるが、良好に動作している。たけまるくんからこの両システムへのポータビリィティについても述べる。We have been developing and operating "Takemaru-kun" spoken information guidance system in North Community Center in Ikoma city these four years. Takemaru-kun, which is composed of large vocabulary continuous speech recognition program Julius and Q-A database, is now widely used by Ikoma citizens, mainly children. All inputs have been recorded and the first two-year data are annotated. Takemaru-kun system improvement based on two year annotated data is also reported. Takemaru-kun was successfully ported to two spoken information guidance systems in Gakken North Ikoma railway station in the end of this March. These two systems are CG agent type "Kita-chan" , and robot type "Kita-robo". The portability of acoustic models from Takemaru-kun to Kita-robo is also discussed.
著者
和田 芳佳 森勢 将雅 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.111, no.175, pp.81-86, 2011-08-02

歌唱音声や障害音声,強い感情音声など,基本周波数のみでは十分に表すことのできない複雑な構造をもつ音声を分析するために,XSX(eXcitation Structure extractor)と呼ばれる方法を提案してきた.本資料では,従来の基本周波数抽出法と比較することで,XSXの特長と有効な適用領域を明らかにする.まず,FM調波複合音を試験用の信号として,基本周波数の変調周波数に対する追従性能を調べ,XSXが比較対象であるYINとSWIPEを大きく凌ぐ性能を有することを明らかにした.次いで,障害音声データの分析を行い,比較対象の方法と大きく異なる結果が得られる音声に対して詳細な検討を行った.XSXによる詳細な分析結果は,それらの音声では,いわゆる基本周期に加えて,複数の周期が組み合わされた単位が繰返されるサブハーモニックが生じていることを明らかにした.これらの結果は,XSXが従来の方法では困難な複雑な音声の分析に有用な方法であることを示すものである.