文献一覧: 木村優志 (著者)

1 0 0 0 OA StarGANに基づく話者変換の基本周波数系列の安定化

著者: 木村優志春日秀之
雑誌: 研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日: vol.2020-SLP-134, no.34, pp.1-4, 2020-11-25

コンピューターグラフィックスで作られた外見で動画配信を行う Virtual Youtuber (VTuber / バーチャルライバー) や,Virtual Inﬂuencer と呼ばれる存在が近年注目されている.CG による固有の外観をもっているが,声に関しては声優などが務めることが多い.ここで,バーチャルタレントの外見だけではなく,話者変換によって声を変えることができればより便利である.StarGAN-VC2++ は高精度な話者変換モデルの一つであるが,基本周波数が振動するという問題がある.そこで,新たに Δ????0 損失項を導入し,基本周波数の振動の抑制を試みる.実験の結果,基本周波数の振動の抑制が確認された.しかし,フィルタが発振する例が見られる問題が残る.

2020-11-30 11:49:21
1 + 1 Twitter

http://id.nii.ac.jp/1001/00208081/

1 0 0 0 調音特徴-声道音響パラメータ変換を用いた調音特徴HMM音声合成(音声,聴覚)

著者: 木村優志入部百合絵桂田浩一新田恒雄
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日: vol.96, no.5, pp.1356-1364, 2013-05-01
参考文献数: 26

音声認識と合成を共通の調音特徴の時間変化モデルを用いて実現するシステムの開発を行っている.この方式は,音声から調音特徴を抽出することにより,調音特徴の時間変化を表現するHMMを構築する.本論文では音声合成に焦点をあて,HMMが生成する調音特徴系列を声道音響パラメータに変換した後,LSPディジタルフィルタで駆動音源と組み合わせて音声信号を得る方式を提案する.提案方式は,話者不変量である調音特徴の時間変化をHMMで表現するとともに,調音特徴から声道音響パラメータへの変換を特定の話者に対応したMLNで実現することにより,両者を独立モジュールとして実装するため,少量の音声試料で特定話者の音声を合成できる可能性がある.評価実験では,MOSテスト,及びスペクトルひずみから合成音の品質を評価し,提案手法の有効性を示す.

2013-10-14 02:11:44
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110009603600

1 0 0 0 音声と画像シーンを用いた潜在意味解析に基づくタスク推定

著者: 木村優志澤田心大入部百合絵桂田浩一新田恒雄
出版者: 一般社団法人電気学会
雑誌: 電気学会論文誌C(電子・情報・システム部門誌) (ISSN:03854221)
巻号頁・発行日: vol.132, no.9, pp.1473-1480, 2012-09-01 (Released:2012-09-01)
参考文献数: 21

In this paper, we propose a task estimation method based on multiple subspaces extracted from multi-modal information of image objects in visual scenes and spoken words in dialog appeared in the same task. The multiple subspaces are obtained by using latent semantic analysis (LSA). In the proposed method, a task vector composed of spoken words and the frequencies of image-object appearances are extracted first, and then similarities among the input task vector and reference sub-spaces of different tasks are compared. Experiments are conducted on the identification of game tasks. Experimental results show that the proposed method with multi-modal information outperforms the method in which only single modality of image or spoken dialog is applied. Moreover, the proposed method achieved accurate performance even if less spoken dialog is applied.

2012-09-03 15:44:37
1 + 0 Twitter