著者
木谷 俊介 宮内 良太 鵜木 祐史
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.68, no.11, pp.546-556, 2012-11-01 (Released:2017-06-02)
参考文献数
23

ヒトは,様々な音の中から目的音を聴取する際に,手がかり音をあらかじめ聞いておくことで,目的音をより容易に検知できる。本論文では,手がかり音によって,聴覚末梢系における周波数分析特性が変化し,それによって目的音検知が容易になる可能性について検討する。まず,ノッチ雑音同時マスキング実験を行い,手がかり音を事前に呈示する条件と呈示しない条件のマスキング閾値を測定した。次に,得られたノッチ雑音マスキングデータから手がかり音呈示の有無の条件ごとに聴覚フィルタ形状を推定した。最後に,推定された聴覚フィルタの同調特性としてフィルタのQ値(先鋭度)を求めた。その結果,手がかり音を呈示しない条件に比べ,手がかり音を呈示した条件では聴覚フィルタのQ値が大きくなった。これは,フィルタの先端部が鋭くなったことを表しており,末梢系の周波数分析特性が手がかり音によって変化したことを示唆している。
著者
齋藤 毅 辻 直也 鵜木 祐史 赤木 正人
出版者
Acoustical Society of Japan(日本音響学会)
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.64, no.5, pp.267-277, 2008-05-01

歌声特有の音響特徴量と歌声知覚の関係を検討するために,歌声らしさの知覚モデルを提案する。このモデルは,「歌声らしさという聴覚印象が複数の基本的な心理的特徴の知覚に起因する」という仮説のもと,歌声らしさと音響特徴量の対応関係の間に基本的な心理的特徴を介した3層で構成される階層構造モデルである。第1層(歌声らしさ)と第2層(基本的な心理的特徴)の関係については,多次元尺度構成法と重回帰分析によって調査した。第2層と第3層(音響特徴量)の関係については, STRAIGHTを用いた音響分析・合成と心理物理実験によって調査した。その結果, "揺れ," "響き"といった基本的な心理的特徴が歌声らしさの聴覚印象に大きく寄与しており,両者の聴覚印象には基本周波数の準周期的な振動成分であるヴィブラートとそれに同期したホルマントの振幅変調成分,及び3kHz付近の顕著なスペクトルピーク成分と同帯域の強い高調波成分がそれぞれ寄与していることが明らかとなった。更に,これらの音響特徴量を話声に付与することで歌声らしさの聴覚印象が向上する結果を得た。以上から,歌声らしさの知覚モデルを構築することで,歌声知覚における歌声特有の音響特徴量の役割について詳細に検討することが可能であることを示した。
著者
竹内 章 鵜木 祐史 飯田 弘之
雑誌
研究報告ゲーム情報学(GI)
巻号頁・発行日
vol.2015-GI-33, no.13, pp.1-7, 2015-02-26

プロ棋士レベルの柔軟な戦略や芸術性評価の実現には,エキスパート特有の何らかの評価指標が関与しているものと想定される.そのような評価指標の有力候補として,局面の難易度があげられる.本稿では,将棋を題材とした局面の難易度推定のために,ゲーム木のリーフノードにおける評価値の正/負の比率を計測し,カルマンフィルタを用いて解析する手法を提案する.提案手法を用いてプロの棋譜を解析した結果,ルートノードとリーフノードの評価値の相関係数に着目することで,局面の難易度を推定できることを確認した.
著者
鵜木 祐史
出版者
信号処理学会
雑誌
信号処理 (ISSN:13426230)
巻号頁・発行日
vol.12, no.5, pp.339-348, 2008-09
被引用文献数
4

私達は,日常,何不自由なく音声を介してコミュニケーションをとっている。しかし,読者はこんな経験をしたことはないだろうか。例えば,お風呂場や教会など音が非常に響く環境(残響環境)や,人で賑わっている雑多な場所,交通量の多い場所といった非常に騒がしい環境(騒音環境)では,静寂な環境に比べて非常に音を聴き取り難く,いつもと同じように簡単に会話をできないと感じたことである。これは,身の回りの音場環境の影響により,音声が歪んだため,音声知覚に重要な情報が欠落したことによるものである。このような音声コミュニケーションの難しさを評価する尺度として,音声明瞭度,単語・文章了解度が利用されている。前者は無意味音節を発声したとき受聴者がその何%を正しく聞き取れたかを,後者は沢山の有意味単語を発声したとき受聴者が正しく聞き取れた単語数の割合を示すものである。これらの尺度は,音声情報伝達を議論するときに,よく利用されるものであるが,同時に室内音饗学と関係して議論されるとき,音声レベル,騒音レベル,残響時間等の物理量との関連を見出そうとする検討も古くから行われている。代表的なものとして,Houtgast とSteeneken によって提唱された変調伝達関数(Modulation Transfer Function:MTF)に基づく音声明瞭度予測理論がある。これは,音場内において,音声波形の時間的な包絡線情報(以後,エンベロープと呼ぶ)が残響や雑音によって変形することに着目し,100%振幅変調した正弦波を利用してMTFの減衰量から音声伝達指標(SpeechTransmission Index: STI)を予測するものである。この方法は,その後,簡易測定法であるRASTIとして提案され,現在でも標準的な方法として利用されている。STI/RASTI の方法は,理論的に明解であり,実用上多くの利点をもつため,講演会場など室内音響設計にも役立っている。しかしながら,この方法は決して万能であるわけではなく,(1) 音場の時間構造・空間構造を反映していないことや(2) 音源(音声)の物理特性を反映していないことから,音声明瞭度予測に対して適用限界があることが示唆されている。Houtgast とSteeneken が提唱した音声明瞭度予測理論は,室内音響を拡散音場と仮定しているため,上記のように,その適用限界があることは間違いない。しかしながら,室内音響伝達系を入出力の強度情報の関係と残響・雑音に対するMTF を明解に関係づけた点は,大きな業績であり,評価されることであろう。また,この考えは,他の音声信号処理で残されている諸問題を解決するために利用することもできる。例えば,室内の残響の影響を受けた音声を伝達系を測定せずに回復する方法 や,残響環境下での音声の基本周波数推定方法がある。最近では,室内の残響時間をブラインド推定する方法や異なる二つの音場空間を考慮した音場再生法も提案されている。本論文は,合計3回のシリーズで構成される。これらでは,著者が関係した研究分野(残響環境下の音声信号処理)を中心に,MTF を利用した音声信号処理を解説する。本稿では,まず,Houtgast とSteeneken が示したMTF の概念を解説するとともに,その概念に基づいたパワーエンベロープ逆フィルタ法を紹介する。
著者
齋藤 毅 後藤 真孝 鵜木 祐史 赤木 正人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.25-32, 2008-02-08
被引用文献数
7

本稿では,歌詞の朗読音声(話声)を歌声に変換する歌声合成システムSingBySpeakingについて述べる.このシステムは,音声分析合成系STRAIGHTによる分析/合成処理過程において,基本周波数(F0),スペクトル,音韻長を制御するモデルによって歌声特有の音響特徴を操作することで話声を歌声に変換する.F0 制御モデルは,楽譜情報から得られるメロディの遷移の概形に対して,4種類の動的変動成分(オーバーシュート,ヴィブラート,プレパレーション,微細変動)を付与することで歌声のF0変化パターンを生成する.スペクトル制御モデルは,話声のスペクトルに対して,歌唱ホルマントとヴィブラートに同期したホルマントの振幅変調を付与することで歌声のスペクトル形状を生成する.音韻長制御モデルは,楽曲のテンポに基づいて,話声中の各音韻長を歌声の音韻長に伸長する.システムで合成された音声を聴取実験によって評価した結果,各種音響特徴を制御することで話声から歌声に変換され,すべての特徴を制御した合成音の音質は原音声と同程度であることを示した.This paper describes a novel singing voice synthesis system SingBySpeaking that can synthesize a singing voice, given a speaking voice reading the lyrics of a song and its musical score. The system is based on the speech manipulation system STRAIGHT and comprises three models controlling three acoustic features unique to singing voices: the fundamental frequency (F0), phoneme duration, and spectrum. Given the musical score and its tempo, the F0 control model generates the F0 contour of the singing voice by controlling four types of F0 fluctuations: overshoot, vibrato, preparation, and fine fluctuation. The duration control model lengthens the duration of each phoneme in the speaking voice by considering the duration of its musical note. The spectral control model converts the spectral envelope of the speaking voice into that of the singing voice by controlling both the singing formant and the amplitude modulation of formants in synchronization with vibrato. Experimental results show that the proposed system can convert speaking voices into singing voices whose naturalness is almost the same as actual singing voices.
著者
鵜木 祐史
巻号頁・発行日
1999-03

Supervisor:赤木 正人