著者
中鹿 亘 滝口 哲也
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.2, pp.1-6, 2015-11-25

本研究では,音響特徴量・音韻特徴量・話者特徴量の3つを変数とする Three-Way Restricted Boltzmann Machine(3WRBM) を用いて音声モデリングを試みろ.3WRBM はそれぞれの変数のユーナリーポテンシャル,2 変数間のペアワイズポテンシャル,そして 3 変数間の Three-way ポテンシャルを総和したエネルギーに基づく確率密度関数である.本研究では,音響・音韻・話者特徴量の Three-way ポテンシャルを話者正規化学習・話者適応の観点から適切に設計する.一度モデルの学習が終われば 3 変数間の関係性が捉えられ,各特徴量の相互条件付確率を簡単に計算することができる.3WRBM による音声モデリングの性能を評価するために,本稿では声質変換実験と話者認識実験の結果を報告する.話者認識実験における話者特徴量は与えられた音響特徴量から尤度最大下基準により推定することで求めることができ,声質変換は,推定された音韻'情報と,切り替えた話者情報から音響特徴量を推定することで実現される.
著者
高木 信二 倉田 岳人 郡山 知樹 塩田 さやか 鈴木 雅之 玉森 聡 俵 直弘 中鹿 亘 福田 隆 増村 亮 森勢 将雅 山岸 順一 山本 克彦
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-120, no.14, pp.1-9, 2018-02-13

2017 年 8 月 20 日から 8 月 24 日にかけ,ストックホルム ・ スウェーデンで Interspeech 2017 が開催された.Interspeech は音声言語情報処理の分野におけるトップカンファレンスと位置付けられており,今後の本分野の動向に大きく影響を与えている.本稿では,本会議における研究動向,注目すべき発表について報告する.
著者
中鹿 亘 南 泰浩
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

我々の先行研究では,音声信号から自動的に潜在的な音韻情報と話者情報へ分離する適応制限ボルツマンマシンを用いて,入力話者音声から推定される音韻情報を保持したまま,話者情報のみを切り替えて,目標話者音声へ変換する声質変換手法を提案してきた.本研究ではさらに話者情報を自動的にクラスタリングする拡張モデルとして,クラスタ適応制限ボルツマンマシンを提案し,声質変換タスクへ応用する.
著者
中鹿 亘 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.30, pp.1-6, 2014-12-08

質変換は,入力した音声を音韻情報などを保ったまま,話者性に関する特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の多くの声質変換手法は,同一発話内容の入出力音声対 (パラレルデータ) を学習時に必要とするが,予め発話内容を決めておく必要がある,音声間のアライメントを取る必要があるなど,学習データを慎重に用意しなければならないという問題がある.また,変換モデルの利用は学習された話者対のみに限定されてしまう.本研究では,パラレルデータを必要としない任意話者声質変換を実現するため,確率モデルの一つである Restricted Boltzmann machine(RBM) を拡張した話者適応型 RBM(Adaptive restricted Boltzmann machine; ARBM) を新たに提案する.適応型 RBM は可視素子層と隠れ素子層からなる二層の確率モデルであり,異なる層の素子間には話者によって変化する結合重みが存在する.本稿では,適応型 RBM を用いた任意話者声質変換に関する評価実験の結果について報告する.Voice conversion (VC) is a technique where only speaker-specific information in source speech is converted while keeping phonological information. The technique can be applied to various tasks such as speaker-identity conversion, emotion conversion and aid to speaking for people with articulation disorders. Most of the existing VC methods rely on parallel data—pairs of speech data from source and target speakers uttering the same articles. However, this approach involves several problems; firstly, the data used for the training is limited to the pre-defined articles. Secondly, the use of the trained model is limited only to the speaker pair used in the training. In this paper, we propose a novel probabilistic model called an adaptive restricted Boltzmann machine (ARBM) for VC between arbitrary speakers without use of parallel data. This model consists of a visible-unit and a hidden-unit layer with the speaker-dependent connection. In this paper, we report our experimental results of arbitrary-speaker VC using our model, an ARBM.