著者
森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-110, no.5, pp.1-6, 2016-01-29

本稿では,筆者らが 2010 年に提案した基本波検出に基づく基本周波数 (F0) 推定法の耐雑音性向上手法について述べる.2010 年に提案した F0 推定法は,周期信号の調波構造における基本波を低域通過フィルタにより抽出し,基本波の周波数を求める.F0 が未知であるため,カットオフ周波数の異なる複数の低域通過フィルタを用意し,各フィルタにより処理された信号から F0 候補と信頼度を求め,全ての候補中最も信頼できる候補を選択していた.基本波検出に基づく方法は,低域に雑音が混入する環境では充分な SNR の確保が困難であるため,高 SNR 環境で収録された音声を対象としていた.提案法では,滑らかな F0 軌跡を描くよう候補を再選択するアルゴリズム,および推定結果に対し瞬時周波数により結果を補正する処理を導入することで雑音に対する頑健性を向上させる.本稿では,耐雑音性向上手法について述べ,耐雑音性に限定した評価から提案法が期待通り動作することを示す.
著者
森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.23, pp.1-6, 2016-12-13

基本周波数 (F0,最近は FO と表記することもあるが本稿では F0 に統一する) は,周期的に生じる声帯振動間隔の最も短いものの逆数として定義され,知覚する音声の高さに概ね対応する音声の主要なパラメータである.F0 は様々な音声処理に利用されるパラメータであり,例えば Channel vocoder の考えに基づいた高品質音声合成では,音声から F0 を可能な限り高い精度で推定することが要求される.筆者らは,これまで高 SNR の音声を対象とした実時間処理が可能な推定法について検討し,SNR が 30 dB 以上であれば実時間処理が可能であり,かつ最新の方法と比較しても遜色ない性能が達成可能な方法を提案してきた.一方,例えば統計的音声合成では,学習に必要な音声パラメータは事前に分析しておけば良いため,実時間性よりも高い精度と雑音に対する頑健性を備えた方法が望ましいといえる.本稿では,計算速度ではなく,高い耐雑音性と推定精度にフォーカスを絞った F0 推定法 Harvest を提案する.Harvest は,音声スペクトルが調波構造を持つことに着目し,基本波に相当するピークを検出する方法を採用している. まず,高調波と低域雑音を除去するため,様々な中心周波数のバンドパスフィルタによるフィルタリングを実施し,得られた多チャネル信号から F0 の可能性がある候補を全て選定する.その後,選定された候補を瞬時周波数を用いて補正し,時系列の連続性を考えて接続することで最終的な F0 軌跡を生成する.本稿では,音声データベースを用いた評価,および筆者らが 2016 年に提案した耐雑音性評価法により提案法の有効性を示す.
著者
大中 緋慧 高道 慎之介 井本 桂右 岡本 悠希 藤井 一貴 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2023-SLP-146, no.33, pp.1-6, 2023-02-21

オノマトペとは,音の構造を模倣する文字表現,つまり音の文字表現である.この観点から,所望のオノマトペから環境音を合成する Onoma-to-wave が提案されている.他方,オノマトペには漫画や広告,バーチャルリアリティにおける音の視覚的表現(画像オノマトペ)がある.画像オノマトペには,画像の伸縮などの文字だけでは表現できない表現が含まれており,この表現を用いることでより多様な音の合成が期待できる.そこで本研究は,画像オノマトペから環境音を合成する Visual onoma-to-wave を提案する.本手法は,画像オノマトペに含まれる視覚表現のみならず,環境音源の視覚表現(音源画像)を補助情報として,環境音を合成する.また本論文では,オノマトペの反復表現に着目したデータ拡張手法を提案し,より多様な環境音合成を可能にする.実験評価の結果から,画像オノマトペと音源画像から多様な環境音を合成できることが示す.
著者
宮下 敦志 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2023-SLP-146, no.34, pp.1-6, 2023-02-21

音声は順序を持ったデータ系列である.音声スペクトルの周波数軸伸縮や音声の話速制御,テキスト等の別の系列との対応付けなど,いくつかの音声処理は順序を保存するワーピング変換で表される.本報告では,全域通過フィルタを用いたワーピングをリー群として解析することで一般化し,一般ワーピング群 GW を導く.GW の時間領域,周波数領域,接ベクトル空間におけるパラメトリック表現を与え,普遍性や実装方法の観点から体系的に論ずる.
著者
渡邉 研斗 松林 優一郎 深山 覚 中野 倫靖 後藤 真孝 乾 健太郎
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-116, no.16, pp.1-12, 2017-05-08

本研究では楽曲のメロディを考慮した歌詞の自動生成手法を提案する.人間の作詞現場においては,予め作曲されたメロディに対して歌いやすい歌詞を創作する 「曲先」 と呼ばれる方法が広く行われている.しかしながら,自動歌詞生成の既存手法の多くは,韻やシラブルに基づく生成手法を提案しているものの,メロディと歌詞の関係を考慮しておらず,メロディの区切りと単語の区切りが一致しないような不自然な歌詞を生成してしまう問題がある.本研究では,メロディの音符と歌詞の読みが対応づいたデータを用いて,メロディの音の長さ ・ 休符の位置 ・ 繰り返し構造などの特徴と歌詞の相関を詳しく分析し,その結果をもとにした自動歌詞生成モデルを構築する.結果として作成されたモデルにより,休符や長い音符付近で行や段落 (連) が区切れている自然な歌詞が自動生成された.
著者
海口 瑞姫 今井 風花 坂井 祐三子 森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.25, pp.1-3, 2019-06-15

一般に,音声の高さ (基本周波数) は,身長とは負の相関があると言われており,これは,声帯の長さが身長と関連するという仮説に基づいている.本研究では,この仮説をより詳細に検証するため,様々な体型情報と基本周波数との相関関係を調査し,基本周波数と相関の強い体型情報を明らかにすることを目指す.本稿では,年齢条件をほぼ統一した女子生徒の発話を対象に,音声の高さに相当する基本周波数を推定し,複数の体型情報との関連性を調査した結果を示す.音声収録は,半年程度の期間を開けて 2 度実施し,基本周波数と 5 種の体型情報 (身長 ・体重 ・首回り ・胴回り ・体格指数 (BMI: Body Mass Index)) との相関を分析した.分析の結果,基本周波数と身長との間に負の相関があることは確認できたが,それ以上に体重との相関が強いという傾向が認められた.
著者
宮下 敦志 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-142, no.33, pp.1-6, 2022-06-10

音声認識モデルには,話者の違いによる発声の揺らぎに対して認識結果が不変であることが求められる.声道長変換はそのような揺らぎを模倣する変換の 1 つである.本報告では,全域通過フィルタによるワーピングで表される声道長変換について,群論を用いて別の変換式を与え,そこから解析的に導かれる声道長正規化処理を音声認識モデルの入力に用いる手法を提案する.提案手法では,学習データに依存しない特徴量表現を得ることが可能である.TIMIT データセットを用いた音素ラベル分類による実験的評価によって,学習データに含まれない仮想的な声道長の話者について,提案手法による汎化性能の向上が確認された.
著者
中島 祥好
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2020-SLP-132, no.10, pp.1-2, 2020-05-30

言語音が時間上でどのように分かれ,互いに関係づけられるかを探る分野である「音韻論」は,環境における音がどのようにまとまったり分かれたりして聴こえるかを探る「聴覚心理学」に結びつけられるべきである.我々の研究グループは,「聴覚の文法」と称する理論的枠組みを作り,非言語音が知覚体制化によって音脈を形成することについても音韻論のような考えかたが有効であることを示した.もう一つの理論的枠組みである「音響的音韻論」は音節形成の原理などを音響分析に基づいて探るもので,その第一歩として,音声のスペクトル変化の中に,言語学において鳴音性 sonority と呼ばれる性質がどのように現れるかを解明している.言語音と非言語音との研究を同じ精神物理学の方法論に則って進めることは実り多いと思われる.
著者
戸上 真人
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.8, pp.1-6, 2021-02-24

深層学習ベースの音源分離の進化が著しいが,ニューラルネットワーク (NN) は空間モデルとは独立に学習されることが多い.しかし,そのような構成で学習された NN は,空間モデルを用いて音源分離を行う構成において本当に最適であるといえるのかという疑問が残る.本講演では従来の統計モデルに基づく音源分離および深層学習を用いた音源分離の研究の流れを示すと共に,深層学習を用いた音源分離に空間モデルを取り込み,NN を空間モデルを考慮して学習する方法として近年著者らが進めている 4 つの方向性,1) 空間モデルの影響を考慮した NN の損失関数,2) NN の構造の中に空間モデルを用いた音源分離を埋め込む方法,3) 所望音源の到来方向の情報をアトラクタとして用いて音源分離に必要なパラメータを推定するフレームワーク,4) 統計モデルに基づく音源分離法を疑似教師信号生成機として用いる教師無し NN 学習法を紹介する.
著者
米山 怜於 呉 宜樵 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.13, pp.1-6, 2021-02-24

本稿では,ソースフィルタ理論に基づくニューラルボコーダを単一のネットワークにより実現する手法を提案する.深層学習に基づく音声波形生成モデリングを実現するニューラルボコーダは,高品質な音声波形を生成で きる一方で,完全データ駆動型の枠組みであるがゆえに,従来型ボコーダの利点の一つであった操作機能が低下する 傾向にある.そのため,従来型ボコーダと同様に音源生成部と声道フィルタ部に分割し,どちらか一方に対してパラ メトリックなモデルを導入する枠組みが盛んに研究されている.従来型ボコーダにおける近似を一部導入することで, 操作性を高めることが可能となるが,完全データ駆動型の枠組みと比較すると,音質が若干劣化する傾向にあり,ま た,操作機能についても未だ改善の余地がある.この問題に対し,本稿では,より近似の少ない枠組みとして,単一 のニューラルネットワークに対してソースフィルタ理論の仕組みを導入した「統合型ソースフィルタネットワーク」を提案する.音源生成部と声道フィルタ部の両方をニューラルネットワークでモデル化して接続することで,統一的 な訓練指標でネットワーク全体を最適化することを可能とするとともに,音源生成部のネットワーク出力に対する制 約を導入することで,音源生成機能を備えたネットワークの学習を試みる.実験的評価の結果から,提案法は従来法であるニューラル・ソースフィルタと比較して,F0 変換精度を有意に改善できることを確認した.
著者
津崎 実
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.12, pp.1-6, 2018-06-09

ピッチは音の重要な知覚属性であり,ヒトがどのようにしてピッチを知覚するかに関するモデルについては古くから研究がされている.ピッチ現象を説明するための聴覚理論として有名な場所説と時間説の間の論争は 19 世紀に今日の原形が形成され,その後修正を加えながら,今日でも引き継がれてきている.時間説の流れを汲む近年の機能モデルでは基底膜フィルターバンク処理と半波整流の後段に自己相関演算による周期性検出を想定するものが多い.著者の研究グループでは,加齢に伴う絶対音感判断の上方へのシフトという現象をここ数年研究してきている.この現象は知覚レベルでのピッチが加齢に伴って変容する可能性を強く示唆する.ピッチが音響信号に備わる周期性に基づいた知覚属性であることは否定しがたいが,単にその周期性を時間の関数としての自己相関演算で求める以上,このような加齢効果が入り込む余地はない.加齢効果を説明するためには自励発振する内部参照を想定し,その自励発振周波数が加齢によって変化することを想定する必要がある.発振回路を使用したピッチ検出機構の提唱は先例があるものの,従来はその想定を必要とする現象が観察されずに来た.加齢性のピッチ ・ シフト現象はピッチ知覚に関する研究に新たな局面を切り開く可能性がある.
著者
木村 優志 春日 秀之
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2020-SLP-134, no.34, pp.1-4, 2020-11-25

コンピューターグラフィックスで作られた外見で動画配信を行う Virtual Youtuber (VTuber / バーチャルライバー) や,Virtual Influencer と呼ばれる存在が近年注目されている.CG による固有の外観をもっているが,声に関しては声優などが務めることが多い.ここで,バーチャルタレントの外見だけではなく,話者変換によって声を変えることができればより便利である.StarGAN-VC2++ は高精度な話者変換モデルの一つであるが,基本周波数が振動するという問題がある.そこで,新たに Δ????0 損失項を導入し,基本周波数の振動の抑制を試みる.実験の結果,基本周波数の振動の抑制が確認された.しかし,フィルタが発振する例が見られる問題が残る.
著者
阪上 大地
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.2, pp.1-13, 2018-06-09

本稿では音楽情報処理に深層学習を応用する方法を解説する.本稿は二部構成で,ニューラルネットの一般的な設計と学習方法を解説した後,音楽情報処理を含めた各種メディア処理への応用例を紹介する.前半ではパラメータの初期化方法など常識となってしまっている基本的な事柄,Dropout などのよく使われるテクニック,最先端でまだ整理が進んでいない研究成果を順番に解説する.後半では WaveNet や Encoder-Decoder モデルなど各分野の代表的な応用例を紹介し,和音認識 ・ ビートトラッキングなどに深層学習を応用した研究を紹介する.
著者
小野 雄大 森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.15, pp.1-6, 2019-06-15

VOCALOID などの歌詞と譜面の情報から歌声を合成する歌声合成ソフトウェアを皮切りに,歌声合成技術は発展し続け,歌声に多様な表現を付与することが可能となった.多様な表現が可能となったからこそ,ユーザが所望する歌声をデザインすることを支援する研究も行われている.本研究では,歌唱表現の中でもビブラートに着目し,そのデザインを支援するインタフェースを検討する.本稿では,歌声を聴きながらビブラートデザインを行う手法を提案し,提案手法をインタフェースとして試作した.本インタフェースを構成する機能として,リアルタイムビブラートデザイン機能やデザイン対象音声のピアノロール表示機能,音声ファイルの読み込み,書き込み機能などについて説明する.最後に,提案手法のビブラートデザインの有効性について考察し,今後の展望について述べる.
著者
大浦 圭一郎 中村 和寛 橋本 佳 南角 吉彦 徳田 恵一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.34, pp.1-6, 2019-06-15

本稿では,ニューラルネットワークに基づく音声ボコーダにおいて,周期信号と非周期信号を入力とする音声生成の枠組みを提案する.近年,ニューラルネットワークを用いて音声波形を直接モデル化する手法として WaveNet [1] が提案された.WaveNet は音声波形を高精度にモデル化することができ,自然な音声を直接生成することができるため,特に音声ボコーダ [2] として様々な研究で利用されている [3],[4],[5].しかし,過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持ち,合成時に並列演算ができないことから,実時間で合成できない問題があった.また,WaveNet を学習する際のデータベースに無い音高の再現ができない問題や,補助特徴量として指定したピッチ情報の音高を再現しないことがある問題があった.これらの問題に対し,本稿では明示的に周期信号と非周期信号の列を入力として用い,対応する音声サンプルの列を一度に生成する手法を提案する.提案手法を用いることで,実時間より高速に音声を生成できること,および,学習データの範囲外のピッチを持つ音声波形を生成できることを確認した.また,自然性に関する主観評価実験を行い,WaveNet と比較して合成音声品質の向上を確認した.
著者
林 耕平 高橋 登紀夫 永田 晃弘 嵯峨山 茂樹
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.45, pp.1-5, 2018-06-09

これまで,人間の演奏に自動伴奏付けを行う研究は広く行われてきたが,奏者は与えられた楽譜に従って演奏を行うという前提があった.そこで,本稿ではドラムスという楽器における,より即興的な演奏に対して自動伴奏付けを行う手法について議論する.まず,自由なドラムス演奏をリズムパターンの同期遷移や接続によって行われるものとして近似し,HMM (Hidden Markov Model) を用いてモデル化を行う.モデルの確率的な逆問題を解くことで,演奏のリズムパターンや演奏箇所の推定を行う.具体的には複数の尤度計算とテンポ推定を行い,Viterbi アルゴリズムによってモデルの最尤状態を推定する.また,ここまでの手法を評価するために実験を行い,高い精度で演奏箇所の推定が行われることを示す.更に,本稿では自動伴奏付けの構想についても述べる.
著者
Xinyi Zhao Nobuaki Minematsu Daisuke Saito
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-125, no.17, pp.1-4, 2018-12-03

In English education, speech synthesis technologies can be effectively used to develop a reading tutor to show students how to read given sentences in a natural and native way. The tutor can not only provide native-like audio of the input sentences but also visualize required prosodic structure to read those sentences aloud naturally. As the first step to develop such a reading tutor, prosodic events that can imply the intonation of the sentence need to be predicted from plain text. In this research, phrase boundary and 4-level stress instead of the traditional binary stress level are taken into consideration as prosodic events. 4-level stress labels not only categorize syllables into stressed ones and unstressed ones, but also indicate where phrase stress and sentence stress should appear in a sentence. Conditional Random Fields as a popular sequence labeling method are employed to do the prediction work. Experiments showed that applying our proposed method can improve the performance of prosody prediction compared to previous researches.
著者
向原 康平 サクリアニ サクティ 吉野 幸一郎 グラム ニュービッグ 中村 哲
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.15, pp.1-6, 2015-11-25

話者感情の揺らぎは音声へ影響を与え,音声認識システムにおいてモデルとのミスマッチを発生させ認識精度を悪化させる.本研究では,DNN ボトルネック特徴量および CNN ボトルネック特徴量を用いることを提案し,感情音声認識精度の改善を図る.ボトルネック構造のニューラルネットワークによって特徴量変換を施したボトルネック特徴量は,入力音声の変動に対して頑健な音響特徴量を抽出できることが示されている.ボトルネック特徴量とは,中間層のユニット数を少なくしたボトルネック構造の多層ニューラルネットワークから抽出する特徴量である.ボトルネック特徴量は特徴量強調が行われ,感情音声のゆらぎに左右されない音素の本質的な成分を抽出されていることが期待されている.本実験では感情音声に対してボトルネック特徴量変換を行い,それぞれの特徴量で GMM-HMM 音響モデルを再学習する.この時のボトルネック音響モデルの感情音声に対する精度向上を確認する.また他の特徴量変換手法と組み合わせることで認識精度の向上を図る.DNN,CNN ボトルネック特徴量を用いた認識精度はそれぞれのベースラインと比較し,認識精度の改善が確認できた.また他の特徴量変換手法の組み合わせにより認識精度の向上を確認できた.
著者
高木 信二 Sangjin Kim 亀岡 弘和 山岸 順一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.21, pp.1-6, 2016-12-13

多くの統計的パラメトリック音声合成システムでは,高品質ボコーダを用い,音声波形を構築する.その際,ソース ・ フィルタモデルに基づくボコーダが利用されることが多く,言語特徴量からメルケプストラム,F0 といった音響特徴量を予測し,ボコーダによる音声波形生成が行われる.しかし,ボコーダを用いたことに起因する合成音声の自然性の低下が常に問題となっており,これまで様々な研究が報告されている.しかし,ソース ・ フィルタモデルに基づいている限り,この問題を完全に解決することは容易ではない.そこで本研究では,ボコーダを用いない音声合成システム構築することを考える.具体的には,統計的パラメトリック音声合成において,振幅スペクトルからの位相復元,逆短時間フーリエ変換,および重加算法 (OLA) に基づき波形を生成することについて検討する.今回提案する音声合成の枠組みでは,まず,調波構造を含む振幅スペクトルの予測を DNN 音響モデルにより行い,次に,予測された振幅スペクトルから Griffin / Lim 法により位相を復元することで,音声波形の生成を行う.主観評価実験により,高品質ボコーダを用いた DNN 音声合成システムと提案システムの比較を行った結果,提案法ではボコーダに基づく合成音声特有のバジー感が無い合成音声の生成が可能であることを確認できた.