著者
津崎 実 入野 俊夫 堀川 順生 宮崎 謙一 牧 勝弘 竹島 千尋 大串 健吾 加藤 宏明 倉片 憲治 松井 淑恵
出版者
京都市立芸術大学
雑誌
基盤研究(A)
巻号頁・発行日
2012-05-31

本研究は加齢による「聴力」の変化について知覚・生理現象観察と計算モデルを構築を目的とした。従来ほとんど関心を集めていなかった加齢性ピッチ・シフト現象について,十分な数の幅広い年齢層の聴取者を用いて,その現象が確実に生じることを突きとめ,さらに同じ聴取者に対する聴力検査,耳音響放射検査,脳波の周波数追随反応との相関分析を実施した。並行実施した非線形圧縮特性,聴神経の位相固定性などへの加齢による変容の基礎検討を通して,ピッチ・シフトはこれらの要因の変容によっては説明困難であること示し,新規の聴覚モデルの提案に至った。
著者
入野 俊夫
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.66, no.10, pp.506-512, 2010-10-01 (Released:2017-06-02)
参考文献数
15
被引用文献数
1
著者
高橋 徹 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.571, pp.31-36, 2006-01-19
被引用文献数
1

多様な発話変換・合成を記述できる音声テクスチャマッピングモデルを提案する. 提案するモデルは, 音声を特徴づける骨格となるワイヤフレームに発話スタイルや話者性を表わすテクスチャをマッピングする枠組みによって音声を表わす. ワイヤフレームやテクスチャは, 統計的にあるいは, 発話事例から求めることができる. このモデルは, 画像分野で用いられるテクスチャマッピングを音声に適用したモデルである. 一般に, 発話変換は, スペクトルに対する演算と変形によって実現される. テクスチャマッピングの枠組みを用いて演算と変形を取り扱う仕組みについて述べる. ワイヤフレームにどのようなテクスチャをマッピングするかによって多様な発話スタイルを表現できることを示す. また, 様々な発話スタイルの音声を合成できることを示す. 最後に, ある発話に基づいてワイヤフレームを生成し, テクスチャをマッピングすることで発話変換を行うことができることを示す.
著者
溝渕 翔平 西村 竜一 入野 俊夫 河原 英紀
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2015-MUS-107, no.60, pp.1-6, 2015-05-16

本研究では提案法を用いて通常歌唱音声にグロウル系歌唱の特徴を付与した際の印象を評価した.これまでの研究よりグロウル系歌唱音声特有の物理的特徴として 「1k~4kHz の帯域強調」,「基本周波数の振動」 及び,「スペクトル形状の高速な時間変動」 が確認された.従来法である 「スペクトル形状の高速な変動」 を付与したモデルは,観察された現象を表面的に模擬するために 4 個のガウス関数を組み合わせたものであり,声質の表現や発声の機構を考慮したものでは無かった.本研究では 「スペクトル形状の高速な時間変動」 を披裂喉頭蓋の形状変化と声帯音源波形の時間変化の相互作用としてモデル化することで,グロウル系歌唱音声の特徴を付与する手法をこれまでに提案した.本稿では,従来法と提案法を変換後の歌唱音声の一対比較実験により評価した.結果をサーストンの一対比較法により分析した結果,提案法がグロウル系歌唱音声の印象を付与するのに効果的であることが示唆された.
著者
小林 真優子 西村 竜一 入野 俊夫 河原 英紀
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-99, no.47, pp.1-6, 2013-05-04

声を聴くと,何となくその人の体型が分かる.ここでは,母音だけを用いて相対的な声道長を推定する方法を提案する.この方法では,声道長以外の要因によるスペクトル形状変化の影響を軽減するために,スペクトル距離の計算に用いる帯域を制限し,スペクトルの大局的な平坦化と形状の過度な詳細の平滑化とを組合せている.6歳から56歳までの284名の男女が発声した母音と身体情報からなるデータベースを用いることで,これらの処理に用いるパラメタを決定した.母音だけを用いた簡易な方法にも関わらず,以前報告した聴覚モデルを用いた方法を凌駕する精度での声道長推定が可能であることを確認した.また,このデータベースに付与された身体情報を母音だけから推定できることを示した.
著者
河原 英紀 森勢 将雅 西村 竜一 入野 俊夫
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-95, no.4, pp.1-6, 2012-05-26

シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の (基本周波数の) 周波数変調と、同様に、高速の (スペクトル包絡の) 振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ (生々しさ) を制御できる可能性が示された。
著者
溝渕 翔平 西村 竜一 入野 俊夫 河原 英紀
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-103, no.55, pp.1-6, 2014-05-17

本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与する GUI について紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIR フィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第 3 フォルマント周辺の高速な時間変調の付与の 3 つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUI の開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発した GUI は実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.
著者
溝渕 翔平 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.114, no.52, pp.279-284, 2014-05-17

本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与するGUIについて紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIRフィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第3フォルマント周辺の高速な時間変調の付与の3つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUIの開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発したGUIは実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.
著者
入野 俊夫 河原 英紀 津崎 実 西村 竜一
出版者
和歌山大学
雑誌
基盤研究(B)
巻号頁・発行日
2009

音声知覚の基盤となる聴知覚特性を明確にし、数理的な理論の構築/検証を行った。1)寸法・形状知覚:発声方法による寸法弁別閾の違いが無いことや時間特性を明確にした。2)聴覚フィルタ特性/難聴者・健聴者の聴知覚特性:聴覚フィルタの周波数選択性や圧縮特性の同時測定と、模擬難聴を実現できる枠組みを世界に先駆けて開発した。3)機能的磁気共鳴像(fMRI)実験:音声からの寸法知覚の情報処理の座に関して知見を得た。4)音声知覚モデル化/音声・音響処理:理論的な背景をもとに話者の声道長推定が精度良くできることを示した。また、知覚的音響処理の改善も行った。
著者
坂野 秀樹 森勢 将雅 高橋 徹 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.551, pp.157-162, 2008-03-13
被引用文献数
2

実時間動作するSTRAIGHT,リアルタイムSTRAIGHTの改良を行ったので,その詳細について報告する.高品質音声分析変換合成法STRAIGHTは極めて高品質であり,合成システムや聴覚実,験用のツールとして広く利用されるようになってきている.STRAIGHTは,MATLABによって実装されており,オフラインでの処理にはこれが広く用いられているが,実時間で動作するものではない.そこで,我々は,実時間で動作するリアルタイムSTRAIGHTをC言語による実装で構築してきた.今回は,まず,C言語によるSTRAIGHTの実装であるC言語版を,MATLAB版STRAIGHTの最新版と同等のものに更新した.そして,このC言語版の関数の一部を利用し,リアルタイムSTRAIGHTのスペクトル抽出部分を改良した.改良したリアルタイムSTRAIGHTを用いて主観評価実験を行った所,MOS値が3.4となり,これまでのリアルタイムSTRAIGHTに比べ0.7程度改善したことが分かった.また,C言語版STRAIGHTにおいては,バージョンによるAPIの違いが大きいという問題があった.今回,このような問題を解決したC言語版STRAIGHTのAPIを策定し,STRAIGHTライブラリとして実装した.
著者
入野 俊夫
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.78, no.12, pp.718-723, 2022-12-01 (Released:2023-01-01)
参考文献数
16
著者
入野 俊夫
雑誌
日本音響学会研究発表会講演論文集 (ISSN:13403168)
巻号頁・発行日
vol.1995, no.1, pp.449-450, 1995-03-01
参考文献数
9
被引用文献数
1
著者
河原 英紀 森勢 将雅 西村 竜一 入野 俊夫
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.4, pp.1-6, 2012-05-26

シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の (基本周波数の) 周波数変調と、同様に、高速の (スペクトル包絡の) 振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ (生々しさ) を制御できる可能性が示された。Strong expressions such as "shout" and "death voice" are common in popular singing. However, current singing synthesis systems are not good at handling these strong expressions and are not capable of using them to expand their limit of expressiveness. This is the topic this article tries to address. A set of singing voice analysis tests was conducted using our newly developed F0 extraction method, which has high temporal resolution and is light-weighted, and TANDEM-STRAIGHT for spectral envelope analyses. This test revealed that expressive singing voices consist of high-speed frequency as well as amplitude modulations in F0 and spectral envelope respectively. In one typical case, about 20 dB higher modulation frequency spectral peak was found around 70 Hz for expressive performance than that of normal performance. Preliminary tests suggested that selective control of "expressiveness" can be implemented by manipulating these high-speed modulations while preserving vocal register and effort intact.
著者
和田 芳佳 森勢 将雅 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.111, no.175, pp.81-86, 2011-08-02

歌唱音声や障害音声,強い感情音声など,基本周波数のみでは十分に表すことのできない複雑な構造をもつ音声を分析するために,XSX(eXcitation Structure extractor)と呼ばれる方法を提案してきた.本資料では,従来の基本周波数抽出法と比較することで,XSXの特長と有効な適用領域を明らかにする.まず,FM調波複合音を試験用の信号として,基本周波数の変調周波数に対する追従性能を調べ,XSXが比較対象であるYINとSWIPEを大きく凌ぐ性能を有することを明らかにした.次いで,障害音声データの分析を行い,比較対象の方法と大きく異なる結果が得られる音声に対して詳細な検討を行った.XSXによる詳細な分析結果は,それらの音声では,いわゆる基本周期に加えて,複数の周期が組み合わされた単位が繰返されるサブハーモニックが生じていることを明らかにした.これらの結果は,XSXが従来の方法では困難な複雑な音声の分析に有用な方法であることを示すものである.
著者
西村 竜一 三宅 純平 河原 英紀 入野 俊夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.103, pp.13-18, 2007-10-19
被引用文献数
16

提案する w3voice システムは、Web システムに対して、音声による入力インタフェースを拡張する。Java アプレットと CGI プログラムから構成し、通信プロトコルには、HTTP POST method と Redirection response を応用した実装を行った。このため、事前に特別な専用プログラムのインストールを要求せず、普段の Web ブラウザをそのままで使うことができる。また、音声認識、対話、ボイスチェンジャ、掲示板等の音声 Web アプリケーションを作成し、Web サイトで公開した。本研究は、家庭や職場等での音声インタフェースの利用環境を調べることを目的とする。そのために、利用者からの入力発話を蓄積し、分析をはじめている。約7ケ月で一日 47.6個、合計で 8 412 の入力を得ることができた。本稿では、提案システムの概要を述べ、収集データの発話時間及び SNR に関する調査結果を報告する。We have developed a speech input method called "w3voice" to build practical and handy voice-enabled Web applications. It is constructed using a simple Java applet and CGI programs comprising free software. The mechanism of voice-based interaction is developed on the basis of raw audio signal transmissions via the POST method and the redirection response of HTTP. We have released a number of w3voice applications on our website for public uses. The system also aims at organizing a voice database obtained from home and office environments. We have succeeded in acquiring 8,412 inputs (47.9 inputs / day) over a period of seven months. This report describes an overview of the proposed system, and results of analyzing collected inputs to observe utterance lengths and SNR.
著者
入野 俊夫 河原 英紀 西村 竜一 高橋 徹 津崎 実 津崎 実 高橋 徹 ロイD. パターソン
出版者
和歌山大学
雑誌
基盤研究(B)
巻号頁・発行日
2006

初期聴覚系における「寸法・形状知覚理論」の検証とその応用を行った。そのための心理実験を実施し、理論を支持する実験結果を数多く得た。fMRI実験によって、音節情報処理の脳内部位を推定し、寸法・形状情報処理の部位特定のための制約条件を与えた。「ガンマチャープ聴覚フィルタ」等のモデルをさらに洗練化した。 高品質音声分析合成法STRAIGHTの性能改善や、劣化音声の知覚実験と自動音声認識実験の対比も行い、音声知覚の計算理論構築の足がかりを得た。