著者
大谷 大和 松永 悟之 平井 啓之
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.39, pp.1-6, 2019-06-15

本稿では深層学習を用いた波形接続型感情音声合成のための感情制御法について述べる.従来の波形接続型感情音声合成では,1) 素片単位での混合が困難であるため,中間的な感情表現が乏しい,2) 入力された感情強度に従い素片の感情の種類を切り替えるため,感情による声質の変化が不連続になるといった問題があった.これらの問題を解決するために,提案手法では深層ニューラルネットワーク (DNN) を用いて,平静音声のスペクトル特徴量と感情強度から感情音声と平静音声の差分スペクトルを予測し,これを平静の素片に畳み込むことで所望の感情強度の感情素片を生成する.また,入力感情強度に応した差分スペクトル特徴量を予測可能にするため,データ拡張により感情強度に対応した差分スペクトル特徴量を生成し,これらを学習に用いることで所望の制御則を DNN に埋め込む.実験的評価では,従来手法と比較して滑らかな感情制御ができていることを確認した.
著者
平井 啓之 本多 清志 藤本 一郎 島田 育廣
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.4, pp.296-304, 1994-04-01 (Released:2017-06-02)
参考文献数
12
被引用文献数
2

音声の基本周波数(F_0)の変化に伴う喉頭軟骨の位置変化を観測して、F_0調節の生理機構を考察した。F_0上昇の生理機構は主に輪状甲状筋の活動によって行われることがよく知られているが、F_0の下降については輪状軟骨の弛緩だけでは説明できない問題があり、現在でも明らかにされていない。本研究では、F_0下降の生理機構の理解を目標として、磁気共鳴装置(MRI)を用いて約1〜1.5オクターブのF_0範囲で持続発声を行ったときの喉頭の正中矢状断面の撮像を行った。複数の被験者の断層像より喉頭周囲構造の輪郭を抽出した。結果、F_0の昇降におおむね従う喉頭の上下動などの形態変化が観測された。F_0下降においては喉頭の下降に伴い輪状軟骨が回転する現象が観測された。これは声帯を短縮させる方向への回転であり、輪状軟骨の後板が頚椎の自然湾曲に沿って移動する結果生ずるものである。F_0下降に伴う喉頭下降の現象や外喉頭筋の活動の理由はこの生理機構により説明できると考えられる。
著者
平井 啓之 党 建武 本多 清志
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.51, no.12, pp.918-928, 1995-12-01
被引用文献数
13

喉頭を含めた発話器官の生理学的モデルを作成した。このモデルは、各筋の活動量を入力として、舌・喉頭・顎などの発話器官に加わるすべての力が釣り合うときの発話器官の位置を求め、得られた声道形状及び声帯長を用いて音声の生成を行なうものである。また、本モデルでは、舌・下顎・舌骨・喉頭は互いに筋によって接続され力の授受が考慮されているため、舌と喉頭との相互作用を表現することができる。測定された筋電信号を入力として発話時の声道形状及び音声を生成し、発話時の声道断面のMRI画像及び実音声との比較を行なった。また、本モデルを用いて外舌筋のF_0に及ぼす影響について検討した。
著者
徳田恵一 峯松信明 戸田智基 額賀信尾 平井啓之
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.7, pp.1-6, 2014-01-24

情報処理研究会音声言語情報処理研究会 (SIG-SLP) 第 100 回記念シンポジウムにおいて,音声合成研究の流れを俯瞰し,今後の目標・応用や方法論を探ることを目的としたテーマセッションを実施する.本稿は,そこでの発表内容の概要を,登壇者がそれぞれ執筆したものである.
著者
平井 啓之 竹本 浩典 本多 清志 党 建武
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.64, no.4, pp.216-228, 2008-04-01
被引用文献数
1

3次元MRI動画と音声を用いて高品質な合成音声の生成を可能にする声道断面積モデルのパラメータ推定手法の提案を行う。始めに,複数話者のMR画像より計測された声道断面積関数を用いて,複数の話者,複数の音素の声道断面積関数を表現できる声道断面積モデルを構築する。次に,単語発声時の3次元MRI動画の声道形状から作成した声道断面積モデルを初期値として,モデルから計算された伝達関数が同じ単語を発声した時の音声のスペクトル包絡と一致するようにシミュレーテッドアニーリングを用いてパラメータの補正を行う。複数の単語に対してパラメータの推定実験を行い,合成音声と実音声とを比較することにより本方式の有効性を確認した。