著者
河原英紀
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.7, pp.1-6, 2014-05-17

「音声の多くの部分を占める有声音は、なぜ、ほぼ周期的なのか?音声の大部分が周期的であることは、聴覚にとって良いことなのか?」 という素朴な疑問から始まった STRAIGHT は、音声研究のためのツールとして広く用いられるに至っている。ここでは、STRAIGHT の基礎となっている 「ピッチマークへの同期を必要としないピッチ同期分析」 によるパワースペクトルと瞬時周波数の表現を簡単に振り返り、最近発見された、周期性による干渉を排除した群遅延の新しい表現を紹介する。
著者
河原 英紀 片寄 晴弘
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.560, pp.43-44, 1998-02-19

本デモンストレーションでは、筆者らが提案した音声分析・変換・合成方法STRAIGHT(Speech/sound Transformation and Representation using Adaptive Interpolation of weiGHTed spectrogram)を楽器音の変換に用いた場合の例を示す。尺八は、非常に生々しく再現されており、本方式が音楽の分野への応用においても高い潜在能力を持つことが示唆された。しかし、ピアノ音などでは音源情報のモデル化と抽出方法に更に工夫が必要であることが明らかとなった。
著者
溝渕 翔平 西村 竜一 入野 俊夫 河原 英紀
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-103, no.55, pp.1-6, 2014-05-17

本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与する GUI について紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIR フィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第 3 フォルマント周辺の高速な時間変調の付与の 3 つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUI の開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発した GUI は実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.
著者
河原 英紀 片寄 晴弘
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.2, pp.208-218, 2002-02-15
参考文献数
40
被引用文献数
12

音楽としての歌唱の魅力は,歌詞をともなうことに多くを負っているといわれる.しかし,歌詞の理解できない外国語の歌唱であっても,楽器としての人間の声の魅力を楽しむことができることも事実である.ここでは,楽器としての声そのものの魅力を楽しむスキャット,ヴォーカリーズ,口三味線,鼻歌等を対象として取り上げ,音声処理技術を用いて,その魅力の分析,再合成,加工を行うシステムの開発を狙う一連の研究構想を提案し,実現技術の予備検討結果を紹介する.具体的には著者らが開発している高品質音声分析変換合成システムSTRAIGHTをエンジンとして利用し,基本的な反射弓を修飾する発声制御モジュール,韻律制御モジュール,音楽情報処理モジュール,インタラクション制御モジュール等を逐次更新していく生態学的枠組みに基づく開発戦略を提案する.様々な研究者が,このようなシステムの実現を意識して研究を進めることは,計算機音楽の範囲を拡大するだけではなく,音声に含まれる非言語情報やパラ言語情報の処理技術に対する有力なベンチマークの機会を提供するものと考えられる."A research program to develop a versatile system for analysis, manipulation and generation of a specific vocal music genre;scat, vocalease, {\it kuchi-jamisen} and humming, is introduced.One of the major aim of the program is to explore why vocal music is still attractive,even if their lyrics are not intelligible when they are sung in a foreign language.This may sound peripheral to the usual belief that lyrics is the centralcharm point of vocal music.However, we argue that this type of research is indispensable forunderstanding roles of non-linguistic andpara-linguistic components in speech and vocal music.The proposed program uses STRAIGHT as its central analysis, modification andsynthesis engine, and will refine its constituent modules like voicing control,prosodic control, musical information processing, interaction control, and so on,organized as modifiers of the basic reflex arc,in an evolutional and developmental process.This research program,that can be understood as a global load-map for various individual research projects,provides a unique common ground for benchmarking non-linguistic and para-linguisticprocessing algorithms as well as a wide variety of opportunities in computer music applications.
著者
溝渕 翔平 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.114, no.52, pp.279-284, 2014-05-17

本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与するGUIについて紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIRフィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第3フォルマント周辺の高速な時間変調の付与の3つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUIの開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発したGUIは実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.
著者
河原 英紀 増田 郁代
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響
巻号頁・発行日
vol.96, no.235, pp.9-16, 1996-08-29
被引用文献数
50

基本周波数の情報を利用したスペクトログラムの適応的補間とオールパスフィルタ特性の組織的設計に基づく音声変換方法STRAIGHT (Speech Transformation and Representation using Adaptive Interpolation of weiGHTed spectrum) を提案する. 本方法では, 音声の基本周波数に適応した時間窓を用いて分析したスペクトログラムに対して, 双一次曲面を保存しかつ時間周波数方向での広がりが最小となる補間関数を用いた補間操作を行なうことで音源の周期性の影響の除去と分解能の確保を両立させている. その結果, 話速, 基本周波数, 声道長等のパラメタの600%に及ぶ変換に対しても自然な音質での再生が可能となった. また, ヘッドフォン受聴の場合に問題となるパルス駆動音源特有の音色を除去するためのオールパス特性を有する音源波形の構成方法についても論ずる.
著者
森勢将雅 河原 英紀 片寄 晴弘
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2008, no.50, pp.117-122, 2008-05-21

STRAIGHT を用いた音声モーフィング技術の拡張として,スペクトル包絡,基本周波数を個別にモーフィングできる,部分モーフィングが提案された.さらに,部分モーフィングを用い,歌唱の特徴を声質・歌い回しに分離し,それぞれを個別にモーフィングできる歌唱デザインインタフェースが提案されている.今回,声質・歌い回しについて様々なモーフィング率で合成した歌唱をあらかじめデータとして蓄積し,波形を接続することで擬似的にリアルタイムでモーフィング率を変化させることが可能なインタフェースを実装した.本報告では,再生中にリアルタイムでモーフィング率を変化させる方法,停止中にモーフィング率の時系列を編集し,編集されたモーフィング率の時系列に基づいて再生を行う方法について説明する.また,リアルタイムにモーフィング率を変化させた歌唱の品質や問題点について述べる.Partial morphing by using STRAIGHT was proposed for independent processing in spectral and source parameters. Moreover, an extension of partial morphing, which enables individual control of voice identity and singing style, was implemented to design the singers' voice identity and their singing style. We describe the implementation of the real-time application in STRAIGHT-based morphing system. This morphing system enables us to control two (voice identity and singing style) morphing-rate during reproducing. This paper shows how to achieve the "real-time" morphing by using a lot of synthesized voices. The quality of real-time morphed singing is also discussed.
著者
田原 佳代子 高橋 徹 森勢 将雅 坂野 秀樹 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.198, pp.19-24, 2005-07-14

歌唱音声のパラメタ(ピッチ, 音量, 音色)には, ランダムな揺らぎと系統的な変化が含まれている.本報告では音量により系統的に変化する音色の成分を明らかにすることを狙い, RWC研究用音楽データベース中の歌唱音声と新たに録音した男性歌手による歌唱音声素材の分析を行った.新たな録音では, RWC研究用音楽データベースに収録されていない連続的な音量変化の影響を調べるため, 一定音量の歌唱に加え, クレッシェンドとデクレッシェンド歌唱を収録した.これらの素材は, STRAIGHTにより分析された後, 1/3オクターブ毎のレベルに変換され主成分分析により直交する成分に分解された.音量を独立変数, 主成分得点を従属変数とする回帰分析の結果は, 第一主成分と音量との高い相関を示した.この結果に基づき, 本報告では, 第一主成分に対応する固有ベクトルを用いた音色制御法を提案した.予備実験の結果は, 合成歌唱によるクレッシェンドおよびデクレッシェンドの自然性が, 提案した方法を用いることにより改善されることを示した.
著者
入野 俊夫 河原 英紀 津崎 実 西村 竜一
出版者
和歌山大学
雑誌
基盤研究(B)
巻号頁・発行日
2009

音声知覚の基盤となる聴知覚特性を明確にし、数理的な理論の構築/検証を行った。1)寸法・形状知覚:発声方法による寸法弁別閾の違いが無いことや時間特性を明確にした。2)聴覚フィルタ特性/難聴者・健聴者の聴知覚特性:聴覚フィルタの周波数選択性や圧縮特性の同時測定と、模擬難聴を実現できる枠組みを世界に先駆けて開発した。3)機能的磁気共鳴像(fMRI)実験:音声からの寸法知覚の情報処理の座に関して知見を得た。4)音声知覚モデル化/音声・音響処理:理論的な背景をもとに話者の声道長推定が精度良くできることを示した。また、知覚的音響処理の改善も行った。
著者
坂野 秀樹 森勢 将雅 高橋 徹 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.551, pp.157-162, 2008-03-13
被引用文献数
2

実時間動作するSTRAIGHT,リアルタイムSTRAIGHTの改良を行ったので,その詳細について報告する.高品質音声分析変換合成法STRAIGHTは極めて高品質であり,合成システムや聴覚実,験用のツールとして広く利用されるようになってきている.STRAIGHTは,MATLABによって実装されており,オフラインでの処理にはこれが広く用いられているが,実時間で動作するものではない.そこで,我々は,実時間で動作するリアルタイムSTRAIGHTをC言語による実装で構築してきた.今回は,まず,C言語によるSTRAIGHTの実装であるC言語版を,MATLAB版STRAIGHTの最新版と同等のものに更新した.そして,このC言語版の関数の一部を利用し,リアルタイムSTRAIGHTのスペクトル抽出部分を改良した.改良したリアルタイムSTRAIGHTを用いて主観評価実験を行った所,MOS値が3.4となり,これまでのリアルタイムSTRAIGHTに比べ0.7程度改善したことが分かった.また,C言語版STRAIGHTにおいては,バージョンによるAPIの違いが大きいという問題があった.今回,このような問題を解決したC言語版STRAIGHTのAPIを策定し,STRAIGHTライブラリとして実装した.
著者
坂野 秀樹 陸 金林 中村 哲 鹿野 清宏 河原 英紀
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌. D-2, 情報・システム 2-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2276-2282, 2000-11-25
参考文献数
8
被引用文献数
5

音声の位相情報を群遅延に基づいて表現することにより, 位相特性の制御を可能とする声質制御方式を提案する.提案方式は, 位相特性を群遅延領域で制御するため, 原音声の位相から零位相まで連続的に変化させることができる.また, 音声の特徴に基づき部分的に零位相化を行っているため, PSOLA法などの手法で見られる, ピッチ変換率を大きくしたときの劣化を軽減させることができる.ピッチ変換音声を作成して主観評価実験を行った結果, ピッチ変換率が1倍の場合に, 零位相合成, PSOLA法, 提案法のMOS値が, 男声の場合はそれぞれ3.6, 4.3, 4.3, 女声の場合はそれぞれ, 3.8, 4.2, 4.3であった.ピッチ変換率が3倍の場合には, それぞれの方式のMOS値が, 男声の場合に2.8, 2.4, 2.7, 女声の場合に1.6, 1.4, 1.7となった.これらの結果から, 提案方式は, ピッチ変換率が小さい場合には, PSOLA法に匹敵する高品質な音声が合成でき, ピッチ変換率を大きくした場合には, PSOLA法特有の劣化を減少させることができることがわかった.また, 本論文では, ピッチ変換を行った際にどのように位相特性を変化させるのが適当であるかについても検討し, ピッチを上昇させた際に位相特性を零位相に近づけると, 劣化が若干抑えられることがわかった.
著者
河原 英紀 榊原 健一 坂野 秀樹 森勢 将雅
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2018-MUS-121, no.1, pp.1-5, 2018-11-14

瞬時周波数と群遅延は,それぞれ位相の時間微分と周波数微分として定義されており,そのままでは,逆三角関数や位相の unwrap という脆弱で効率の悪い演算を必要としていた.Flanagan によって 1966 年に紹介された信号の瞬時周波数を求める式は,これらを必要とせず,群遅延の計算にも応用できることから広く用いられてきた.しかし,マルチメディア処理の普及により,最近の処理系では逆三角関数の計算を高速に実行することができるため,明示的に位相を経由することなく瞬時周波数と群遅延の計算を実装することができようになった.ここでは,サイドローブの減衰が急峻な余弦級数を時間領域の振幅包絡とする解析信号をインパルス応答とするフィルタを用いて有声音の音源を分析する方法を提案する.
著者
河原 英紀 森勢 将雅 西村 竜一 入野 俊夫
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.4, pp.1-6, 2012-05-26

シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の (基本周波数の) 周波数変調と、同様に、高速の (スペクトル包絡の) 振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ (生々しさ) を制御できる可能性が示された。Strong expressions such as "shout" and "death voice" are common in popular singing. However, current singing synthesis systems are not good at handling these strong expressions and are not capable of using them to expand their limit of expressiveness. This is the topic this article tries to address. A set of singing voice analysis tests was conducted using our newly developed F0 extraction method, which has high temporal resolution and is light-weighted, and TANDEM-STRAIGHT for spectral envelope analyses. This test revealed that expressive singing voices consist of high-speed frequency as well as amplitude modulations in F0 and spectral envelope respectively. In one typical case, about 20 dB higher modulation frequency spectral peak was found around 70 Hz for expressive performance than that of normal performance. Preliminary tests suggested that selective control of "expressiveness" can be implemented by manipulating these high-speed modulations while preserving vocal register and effort intact.
著者
筧 一彦 曽我部 優子 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 (ISSN:09135685)
巻号頁・発行日
vol.105, no.291, pp.31-38, 2005-09-16
被引用文献数
2

すでに表情の知覚に関する研究は非常にたくさんある。しかし、表情知覚が次元的であるかカテゴリカル的であるかについての決着はまだついていない。これに対して音声では感情レベルを連続的に変化させた発声が困難であるため、感情音声の知覚に関する研究はほとんどないと言ってよい。最近になってSTRAIGHT (VOCODERの一種で高品質の音声を合成可能とする)をベースとする音声の新しいモーフィング法が提案された。本報告ではこのモーフィング法を用いて音声感情の強さや一つの感情から他の異なる感情の間を連続的に変化させた高品質のモーフィング音声を実現し、感情音声の知覚的特性を検討した。最初に感情音声の知覚がカテゴリカルかどうかについて検討した。その結果を表情知覚のカテゴリカル性と比較し、検討を加えた。次に6個の基本感情とそれに平静を加えた7感情の間の関係を多次元心理空間上で検討した。最後に感情音声の知覚特性と表情のそれについて議論した。