著者
森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-110, no.5, pp.1-6, 2016-01-29

本稿では,筆者らが 2010 年に提案した基本波検出に基づく基本周波数 (F0) 推定法の耐雑音性向上手法について述べる.2010 年に提案した F0 推定法は,周期信号の調波構造における基本波を低域通過フィルタにより抽出し,基本波の周波数を求める.F0 が未知であるため,カットオフ周波数の異なる複数の低域通過フィルタを用意し,各フィルタにより処理された信号から F0 候補と信頼度を求め,全ての候補中最も信頼できる候補を選択していた.基本波検出に基づく方法は,低域に雑音が混入する環境では充分な SNR の確保が困難であるため,高 SNR 環境で収録された音声を対象としていた.提案法では,滑らかな F0 軌跡を描くよう候補を再選択するアルゴリズム,および推定結果に対し瞬時周波数により結果を補正する処理を導入することで雑音に対する頑健性を向上させる.本稿では,耐雑音性向上手法について述べ,耐雑音性に限定した評価から提案法が期待通り動作することを示す.
著者
森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.23, pp.1-6, 2016-12-13

基本周波数 (F0,最近は FO と表記することもあるが本稿では F0 に統一する) は,周期的に生じる声帯振動間隔の最も短いものの逆数として定義され,知覚する音声の高さに概ね対応する音声の主要なパラメータである.F0 は様々な音声処理に利用されるパラメータであり,例えば Channel vocoder の考えに基づいた高品質音声合成では,音声から F0 を可能な限り高い精度で推定することが要求される.筆者らは,これまで高 SNR の音声を対象とした実時間処理が可能な推定法について検討し,SNR が 30 dB 以上であれば実時間処理が可能であり,かつ最新の方法と比較しても遜色ない性能が達成可能な方法を提案してきた.一方,例えば統計的音声合成では,学習に必要な音声パラメータは事前に分析しておけば良いため,実時間性よりも高い精度と雑音に対する頑健性を備えた方法が望ましいといえる.本稿では,計算速度ではなく,高い耐雑音性と推定精度にフォーカスを絞った F0 推定法 Harvest を提案する.Harvest は,音声スペクトルが調波構造を持つことに着目し,基本波に相当するピークを検出する方法を採用している. まず,高調波と低域雑音を除去するため,様々な中心周波数のバンドパスフィルタによるフィルタリングを実施し,得られた多チャネル信号から F0 の可能性がある候補を全て選定する.その後,選定された候補を瞬時周波数を用いて補正し,時系列の連続性を考えて接続することで最終的な F0 軌跡を生成する.本稿では,音声データベースを用いた評価,および筆者らが 2016 年に提案した耐雑音性評価法により提案法の有効性を示す.
著者
横森 文哉 二宮 大和 森勢 将雅 田中 章浩 小澤 賢司
出版者
Japan Society of Kansei Engineering
雑誌
日本感性工学会論文誌 (ISSN:18845258)
巻号頁・発行日
pp.TJSKE-D-16-00075, (Released:2016-12-14)
参考文献数
24
被引用文献数
1 1

In this paper, we carried out a subjective evaluation on the perceptual difference in female speech to show the gender difference in its likability and analyzed a relationship between the acoustic features and subjective scores. This subjective evaluation used female speech uttered by 21 speakers as the stimuli, and 127 subjects (47 males and 80 females) attended it. The results suggested that there was the speech preferred without the gender difference and preferred by one gender. We then analyzed the correlation between subjective scores and five acoustic features: fundamental frequency, formant frequency, amplitude difference, spectral centroid and spectral tilt. In female subjects, statistically significant correlations were observed in all features. In male subjects, significant correlation was observed only in spectral tilt. In particular, correlation in spectral tilt showed the inverse trend between male and female subjects. These results suggest that the spectral tilt is effective in the gender difference.
著者
海口 瑞姫 今井 風花 坂井 祐三子 森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.25, pp.1-3, 2019-06-15

一般に,音声の高さ (基本周波数) は,身長とは負の相関があると言われており,これは,声帯の長さが身長と関連するという仮説に基づいている.本研究では,この仮説をより詳細に検証するため,様々な体型情報と基本周波数との相関関係を調査し,基本周波数と相関の強い体型情報を明らかにすることを目指す.本稿では,年齢条件をほぼ統一した女子生徒の発話を対象に,音声の高さに相当する基本周波数を推定し,複数の体型情報との関連性を調査した結果を示す.音声収録は,半年程度の期間を開けて 2 度実施し,基本周波数と 5 種の体型情報 (身長 ・体重 ・首回り ・胴回り ・体格指数 (BMI: Body Mass Index)) との相関を分析した.分析の結果,基本周波数と身長との間に負の相関があることは確認できたが,それ以上に体重との相関が強いという傾向が認められた.
著者
森勢 将雅
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2022-MUS-134, no.6, pp.1-6, 2022-06-10

現在の音声合成研究者が論文に Vocoder と記載するとき,その多くは Deep neural network (DNN) を用いて何らかのパラメータから高品質な音声波形を生成する Neural vocoder を指すのではないだろうか.もしそうであれば,音声符号化という役割ではなく,高品質な音声を合成したいという高品質 Vocoder が持つ『黄金の精神』が,Neural vocoder 世代に受け継がれたことを意味する.本稿では,恐らく今後失われていくであろう伝統的な Vocoder の波形生成部のアルゴリズム,および一連の知識がまだ音声研究において役立つかという将来展望について紹介する.
著者
横森 文哉 二宮 大和 森勢 将雅 田中 章浩 小澤 賢司
出版者
Japan Society of Kansei Engineering
雑誌
日本感性工学会論文誌 (ISSN:18845258)
巻号頁・発行日
vol.15, no.7, pp.721-729, 2016 (Released:2016-12-26)
参考文献数
24
被引用文献数
1 1

In this paper, we carried out a subjective evaluation on the perceptual difference in female speech to show the gender difference in its likability and analyzed a relationship between the acoustic features and subjective scores. This subjective evaluation used female speech uttered by 21 speakers as the stimuli, and 127 subjects (47 males and 80 females) attended it. The results suggested that there was the speech preferred without the gender difference and preferred by one gender. We then analyzed the correlation between subjective scores and five acoustic features: fundamental frequency, formant frequency, amplitude difference, spectral centroid and spectral tilt. In female subjects, statistically significant correlations were observed in all features. In male subjects, significant correlation was observed only in spectral tilt. In particular, correlation in spectral tilt showed the inverse trend between male and female subjects. These results suggest that the spectral tilt is effective in the gender difference.
著者
小野 雄大 森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.15, pp.1-6, 2019-06-15

VOCALOID などの歌詞と譜面の情報から歌声を合成する歌声合成ソフトウェアを皮切りに,歌声合成技術は発展し続け,歌声に多様な表現を付与することが可能となった.多様な表現が可能となったからこそ,ユーザが所望する歌声をデザインすることを支援する研究も行われている.本研究では,歌唱表現の中でもビブラートに着目し,そのデザインを支援するインタフェースを検討する.本稿では,歌声を聴きながらビブラートデザインを行う手法を提案し,提案手法をインタフェースとして試作した.本インタフェースを構成する機能として,リアルタイムビブラートデザイン機能やデザイン対象音声のピアノロール表示機能,音声ファイルの読み込み,書き込み機能などについて説明する.最後に,提案手法のビブラートデザインの有効性について考察し,今後の展望について述べる.
著者
辰巳 直也 森勢 将雅 片寄 晴弘
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-87, no.7, pp.1-6, 2010-10-07

Vocaloid 「初音ミク」 の発売以来,歌唱合成に対する注目が高まりつつある.Vocaloid では,メロディと歌詞を入力することにより,サンプリングされた人の声を元にした歌声を合成することができる.また,表情パラメタを調整することにより,様々な表情を付与することができる.しかし,より人間らしい表情豊かな歌声にするには,表情パラメタの調整を細かく設定することが必要なため,非常に煩雑で時間がかかる.本研究では,ロック歌手の一人 「GACKT」 の歌い方に見られるビブラートやポルタメントといった音高・(音量) 等の歌唱技法を低次のモデルパラメタで近似し,混合ガウス分布を用いた手法でモデルパラメタを決定する.それらの値を Vocaloid の出力に付加することで,ロック歌手らしい歌い方を実現する 「ロックボーカルレゾネータ」 を提案する.
著者
河原 英紀 榊原 健一 坂野 秀樹 森勢 将雅
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2018-MUS-121, no.1, pp.1-5, 2018-11-14

瞬時周波数と群遅延は,それぞれ位相の時間微分と周波数微分として定義されており,そのままでは,逆三角関数や位相の unwrap という脆弱で効率の悪い演算を必要としていた.Flanagan によって 1966 年に紹介された信号の瞬時周波数を求める式は,これらを必要とせず,群遅延の計算にも応用できることから広く用いられてきた.しかし,マルチメディア処理の普及により,最近の処理系では逆三角関数の計算を高速に実行することができるため,明示的に位相を経由することなく瞬時周波数と群遅延の計算を実装することができようになった.ここでは,サイドローブの減衰が急峻な余弦級数を時間領域の振幅包絡とする解析信号をインパルス応答とするフィルタを用いて有声音の音源を分析する方法を提案する.
著者
河原 英紀 森勢 将雅 西村 竜一 入野 俊夫
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.4, pp.1-6, 2012-05-26

シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の (基本周波数の) 周波数変調と、同様に、高速の (スペクトル包絡の) 振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ (生々しさ) を制御できる可能性が示された。Strong expressions such as "shout" and "death voice" are common in popular singing. However, current singing synthesis systems are not good at handling these strong expressions and are not capable of using them to expand their limit of expressiveness. This is the topic this article tries to address. A set of singing voice analysis tests was conducted using our newly developed F0 extraction method, which has high temporal resolution and is light-weighted, and TANDEM-STRAIGHT for spectral envelope analyses. This test revealed that expressive singing voices consist of high-speed frequency as well as amplitude modulations in F0 and spectral envelope respectively. In one typical case, about 20 dB higher modulation frequency spectral peak was found around 70 Hz for expressive performance than that of normal performance. Preliminary tests suggested that selective control of "expressiveness" can be implemented by manipulating these high-speed modulations while preserving vocal register and effort intact.
著者
森勢 将雅 河原 英紀 小川 真
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.9, pp.1-6, 2012-01-27

急速に普及した動画共有サイトとコンテンツ制作支援のソフトウェアは,アマチュアクリエイタにも作品を公開する場と技術を与えた.現在では,複数のクリエイタの協調的な創造活動により,高い品質のコンテンツが多数生み出されている.また,クリエイタが利用するためのソフトウェア開発に関しても協調的な創造活動が行われ,優れたソフトウェアが創出されている.本稿では,歌声合成ソフトウェアをターゲットとし,誰でも利用可能な歌声合成技術を開発・公開することで,歌声合成ソフトウェア開発者間で協調的創造活動が創出されるか社会実験を試みた結果について示す.
著者
和田 芳佳 森勢 将雅 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.111, no.175, pp.81-86, 2011-08-02

歌唱音声や障害音声,強い感情音声など,基本周波数のみでは十分に表すことのできない複雑な構造をもつ音声を分析するために,XSX(eXcitation Structure extractor)と呼ばれる方法を提案してきた.本資料では,従来の基本周波数抽出法と比較することで,XSXの特長と有効な適用領域を明らかにする.まず,FM調波複合音を試験用の信号として,基本周波数の変調周波数に対する追従性能を調べ,XSXが比較対象であるYINとSWIPEを大きく凌ぐ性能を有することを明らかにした.次いで,障害音声データの分析を行い,比較対象の方法と大きく異なる結果が得られる音声に対して詳細な検討を行った.XSXによる詳細な分析結果は,それらの音声では,いわゆる基本周期に加えて,複数の周期が組み合わされた単位が繰返されるサブハーモニックが生じていることを明らかにした.これらの結果は,XSXが従来の方法では困難な複雑な音声の分析に有用な方法であることを示すものである.
著者
植村 祐二 森勢 将雅 西浦 敬信
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.110, no.56, pp.1-6, 2010-05-19

近年,音声認識技術の飛躍的な発達に伴い,音声認識を活用した音声情報案内システム等が利用されるようになりつつある.しかし,騒音環境下での音声認識性能は,十分なSNRが確保できないことや,ロンバード効果と呼ばれる発話変形により低下するという問題がある.ロンバード効果とは,十分な聴覚フィードバックが確保できないときに生じ,基本周波数やフォルマント周波数等,音声認識に用いる特徴量に変化が生じる現象を示す.このロンバード効果により,騒音環境下での音声認識性能が静環境下での音声認識性能に比べ著しく低下するという問題がある.そのため,騒音環境下における音声認識性能の改善には,ロンバード効果の抑圧が必要となる.しかし,ロンバード効果の抑圧には大量のロンバード音声と平常音声が必要となるが,データが不足しているのが現状である.そこでまず,ロンバード効果を含むロンバード音声コーパスを構築した.構築したコーパスから,ロンバード効果による特徴の変化を詳細に分析し,ロンバード音声と平常音声の識別実験を実施した,識別実験は主観評価とマハラノビス距離による客観評価にて行った.その結果,主観客観評価ともに平均80%を超える識別率が確認できた.次いで,分析したロンバード音声の特徴をリサンプリング処理を施し平常音声の特徴に変換することで,ロンバード音声の音声認識性能の改善を試みた.その結果,ロンバード音声の特徴を平常音声の特徴に変換することによって,女声約10%,男声約4%の音声認識性能の改善が確認できた.
著者
森勢将雅 中野 皓太 西浦 敬信
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.5, pp.1-8, 2010-07-21
被引用文献数
2

我々は,実時間で歌唱力を補正することにより「誰が」「どんな曲でも」「簡単に」歌える新たなエンタテインメントについて研究を進めている.これまで使われてきたカラオケは,歌唱力の高い使用者は楽しめるが,歌唱力の低い使用者が楽しめるものでは無い.本稿では,事前に収録されたプロ歌手の歌声から歌唱力に相当するデータを抽出し,使用者の歌唱にリアルタイムで転写することにより,実時間歌唱力補正を実現するシステムについて述べる.本システムにより,歌唱力の低い使用者は歌唱力補正機能により楽しむことができ,歌唱力の高い使用者にとっても,他者に自らの歌唱力を提供するという新たな楽しみを与える利点がある.ここでは,実時間歌唱力補正を実現するための基盤技術,および計算速度を指標とした客観評価により有効性について論じる.A new Karaoke entertainment to happily sing any music is proposed based on the real-time singing style correction. Although the conventional Karaoke application has entertained the skilled user, the unskilled user cannot enjoy it. The proposed system can solve the problem by the real-time singing style correction based on a professional singer's singing. In this paper, the method to extract the parameter about singing style is proposed to correct the singing style of the user. The entertainment for both the skilled users and unskilled users is also discussed.
著者
西浦 敬信 南條 浩輝 森勢 将雅 中山 雅人
出版者
立命館大学
雑誌
基盤研究(C)
巻号頁・発行日
2011

危機的状況を的確に検知して周囲に報知するシステムは,安全安心な社会基盤の構築には必要不可欠である.特に人は危機的状況下では叫ぶ習性があることから,本研究では叫び声や異常音などの危機情報を検知し周囲に報知する危機検知・警報システムの基盤形成を試みた.具体的には(1)音環境における叫び声や異常音など危機情報の検知(2)検知した危機情報の構造化と理解(3)危機情報を報知するための警報音の設計(4)上記を統合した危機情報の検知・警報システムの構築に対して研究を実施し,その有効性を確認した.
著者
村主 大輔 森勢 将雅 片寄 晴弘
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.8, pp.1-6, 2010-10-07

日本ではカラオケや DTM の普及によって音楽活動がますます一般化され,年間 200 組以上のアーティストがメジャーデビューしている.それに伴い,新たなジャンルや歌唱スタイルが生まれることは少なくない.その一つの例として,ポピュラーソングに沖縄や奄美大島などアーティスト出生地の特色を出した音楽表現のスタイルが近年注目されるようになっている.そこで本研究は,歌唱スタイルが特徴的な奄美大島出身歌唱者の歌い回しに注目し,一般歌唱を奄美大島出身の歌唱者の歌い回しにするシステムの開発を目指す.具体的には,「グイン」 と呼ばれる奄美大島出身歌手の歌唱音声を歌唱特徴の定量的な分析を実施し,その分析に基づいて,一般歌唱に 「グイン」 を付加するシステムの概要と,その動作結果について報告する.The recent spread of "Karaoke" and DTM has been promoting music production more generally, and more than 2 hundreds musicians make their debuts in Japan. This leads emergence of new singing styles. Among them, "Okinawa-style" or "Amami-style" is typical one that has been popular recently. We have been developing an assistance system for designing "Okinawa-style" or "Amami-style" vocal melodies. In this paper, we report acoustic analysis of "Amami-style," especially singing style called "guin" and propose a "Amami-style" singing generator, called "Guin-Resonator."
著者
小川 純平 林田 亘平 中山 雅人 森勢 将雅 西浦 敬信 山下 洋一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.112, no.47, pp.167-172, 2012-05-17
参考文献数
10

近年,高齢者を狙う悪質犯罪の増加に伴い,家族が遠隔地から高齢者の危機的状況を確認するために環境音を利用した異常検出システムが注目されている.従来,環境音識別において,環境音を音の種類ごとに分類して音響モデルを構築し,その音響モデルにより環境音を識別する手法が用いられてきた.従来法では,非日常音に対しても日常音と同様に個々に音響モデルを構築している.しかしながら,非日常音は,観測可能なサンプル数が少ないため,音響モデルの学習が不十分だという問題と類似音の識別が困難であるという問題が存在する.また,従来法では残響の存在しない音(ドライソース)を学習環境音として用いていたため,残響下の環境音を頑健に識別することが困難であった.そこで本研究では,非日常音を高精度に識別するためにマルチステージ非日常音識別法を,残響下の環境音を高精度に識別するために模擬インパルス応答を用いた残響マルチコンディションモデルを提案する.
著者
福森 隆寛 森勢 将雅 西浦 敬信 山下 洋一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.94, no.4, pp.712-720, 2011-04-01
参考文献数
19
被引用文献数
6

近年,雑音及び残響下における音声認識手法に関する研究が盛んに行われている.それに伴い雑音環境下で音声認識性能を頑健に予測可能な指標も多数提案されている.一方,残響環境下における音声認識性能の有力な予測指標は提案されておらず,残響下音声認識性能の頑健な予測指標の策定は急務である.これまでに残響下音声認識性能の優劣を判別する残響指標として同一室内で固有の値となる残響時間が提案されているが,仮定する拡散音場と実環境との差異から他の残響特性が変化することにより同一環境でも計測箇所によって音声認識性能が変動する.そのため残響時間は音声認識の難しさを表す指標として不十分であることが問題視されている.そこで本論文では,ISO3382 Annex Aで提案されている室内音響指標を用いた残響下における頑健な音声認識性能の予測法を提案する.提案法では初期反射音と後続残響音の関係を表す室内音響指標の中でも特にDefinition(D値)に着目し,事前に様々な環境で複数箇所計測したインパルス応答をもとに算出したD値と音声認識性能の関係を一次直線や二次曲線で近似することで残響指標RSR-D_nを策定する.策定した残響指標RSR-D_nと性能予測を行う残響環境の発話位置におけるインパルス応答をもとに残響下音声認識性能の予測を試みる.評価実験の結果,従来の残響時間に基づく手法と比較して残響指標RSR-D_nは,より頑健に残響下音声認識性能を予測できることを確認した.