文献一覧: 戸田智基 (著者)

21 0 0 0 OA 《第9回》機械学習と音声生成:音声波形モデリングの進展

著者: 戸田智基
出版者: 公益社団法人計測自動制御学会
雑誌: 計測と制御 (ISSN:04534662)
巻号頁・発行日: vol.58, no.12, pp.951-954, 2019-12-10 (Released:2019-12-18)
参考文献数: 20

2023-05-10 18:42:13
21 + 131 Twitter

10 0 0 0 OA 音声翻訳システムにおける音声変換の利用

著者: 高道慎之介戸田智基
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.74, no.9, pp.535-538, 2018-09-01 (Released:2019-03-01)
参考文献数: 40

2019-03-02 12:17:18
10 + 20 Twitter

8 0 0 0 OA 快適度推定に基づく用例ベース対話システム

著者: 水上雅博 Lasguido Nio 木付英士野村敏男 Graham Neubig 吉野幸一郎 Sakriani Sakti 戸田智基中村哲
出版者: 一般社団法人人工知能学会
雑誌: 人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日: pp.DSF-517, (Released:2015-12-15)
参考文献数: 23
被引用文献数: 4

In dialogue systems, dialogue modeling is one of the most important factors contributing to user satisfaction. Especially in example-based dialogue modeling (EBDM), effective methods for dialog example databases and selecting response utterances from examples improve dialogue quality. Conventional EBDM-based systems use example database consisting of pair of user query and system response. However, the best responses for the same user query are different depending on the user's preference. We propose an EBDM framework that predicts user satisfaction to select the best system response for the user from multiple response candidates. We define two methods for user satisfaction prediction; prediction using user query and system response pairs, and prediction using user feedback for the system response. Prediction using query/response pairs allows for evaluation of examples themselves, while prediction using user feedback can be used to adapt the system responses to user feedback. We also propose two response selection methods for example-based dialog, one static and one user adaptive, based on these satisfaction prediction methods. Experimental results showed that the proposed methods can estimate user satisfaction and adapt to user preference, improving user satisfaction score.

6 0 0 0 OA 統計的声質変換ソフトウェア入門

著者: 戸田智基小林和弘
出版者: 一般社団法人システム制御情報学会
雑誌: システム/制御/情報 (ISSN:09161600)
巻号頁・発行日: vol.62, no.2, pp.69-75, 2018-02-15 (Released:2018-08-15)
参考文献数: 24

6 0 0 0 STRAIGHT混合励振源を用いた混合正規分布モデルに基づく最ゆう声質変換法(音声,聴覚)

著者: 大谷大和戸田智基猿渡洋鹿野清宏
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日: vol.91, no.4, pp.1082-1091, 2008-04-01
被引用文献数: 3

声質変換において,スペクトル特徴量系列の統計的モデル化技術の発展により,その変換性能は大幅に改善された.しかし,声質変換で用いられる音源モデルでは実際の音源を正確に表現できていないため,その変換音声の自然性は十分なものとはいいがたい.これを改善するために,スペクトル特徴量系列と同様に音源特徴量系列に対しても統計的なモデリングを行う必要がある.本論文では混合正規分布モデル(Gaussian Mixture Model: GMM)に基づく声質変換法の枠組みに対してSTRAIGHT混合励振源を導入する.提案法では,スペクトル特徴量系列及び音源特徴量系列に対して最ゆう推定(Maximum likelihood estimation: MLE)に基づく特徴量変換が行われる.客観評価実験並びに主観評価実験の結果より,提案法により音質,話者性変換精度が大きく改善されることを示す.

2015-04-21 11:42:51
6 + 5 Twitter

https://ci.nii.ac.jp/naid/110007381053

3 0 0 0 GMMに基づく声質変換を用いた感情音声合成

著者: 岩見洋平戸田智基川波弘道猿渡洋鹿野清宏
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日: vol.102, no.619, pp.11-16, 2003-01-24

音声における感情表現は韻律におおきく影響されるといわれており,これまで,韻律を制御するためのさまざまな分析と,その分析から得られる規則を用いた合成手法が報告されている.しかし,それらの報告において,韻律は感情表現において重要な要素であるが,韻律だけでなく声質も重要な要素であると指摘されている.そこで本報告では,感情音声の声質を制御する手法として, GMM (Gaussian Mixture Model)に基づく声質変換を用いた感情音声合成手法を提案する.この手法では読み上げ調に発話された音声の声質を,感情音声のそれに変換する.本研究でははじめに,怒り,悲しみ,喜び,読み上げ調(平静)の音声データを収録した.そして,その音声を用いて感情音声への声質変換を行い,客観評価実験及び主観評価実験を行った.その結果,声質変換のみでは感情表現は不十分であるが,適切な韻律が与えられた場合,声質変換を行うことにより,感情の表現力が向上することが分かった.本報告では,感情音声データベースの作成と,その音声から作成した感情間の声質変換音声の評価について報告する.

https://ci.nii.ac.jp/naid/110003295620

2 0 0 0 OA はじめての音声変換

著者: 戸田智基
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.72, no.6, pp.324-331, 2016 (Released:2017-07-01)
参考文献数: 33

2020-12-30 01:24:58
2 + 8 Twitter

2 0 0 0 統計的声質変換を用いた食道発声音声の音質改善

著者: 土井啓成中村圭吾戸田智基猿渡洋鹿野清宏
出版者: 情報処理学会
雑誌: 研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日: vol.2009, no.18, pp.1-6, 2009-07-10
参考文献数: 11

喉頭摘出者が行う発声法の一つに,食道等を用いて音源を生成し,発声を行う食道発声法がある.食道発声法は国内で広く使用されているが,生成された音声は健常者の音声と比較して不自然である.本稿では,食道発声音声の音質改善を目指し,食道発声音声から健常者音声への統計的声質変換を用いた音質改善法 (ES-to-Speech) を提案する.健常者音声のスペクトル特徴量や F₀,非周期成分といった音源特徴量は,それぞれ食道発声音声のスペクトル特徴量から独立に推定する.変換音声の客観評価実験及び,主観評価実験結果から,ES-to-Speech は,食道発声と同等の明瞭性を保ったまま,自然性を大きく改善できることを示す.また,F₀ 推定時に,入力特徴量として食道発声音声のスペクトルと F₀ の併用も試みることで,食道発声音声の F₀ 情報を用いる効果を検証する.This paper proposes a novel method of enhancing esophageal speech based on statistical voice conversion. Esophageal speech is one of the speaking methods for total laryngectomees to speak by generating sound excitations at their esophagus. Although esophageal speech is the major method in Japan, the generated voices sound unnatural. To improve naturalness of the esophageal speech, we propose a conversion method from esophageal speech to normal speech (ES-to-Speech) using a statistical voice conversion technique. Spectral features and excitation features, such as F₀ and aperiodic components, of the normal speech are independently estimated from the spectral features of the esophageal speech based on the maximum likelihood criterion. The effectiveness of ES-to-Speech is evaluated by conducting objective and subjective experiments to demonstrate that the proposed method yields significant improvements in naturalness of esophageal speech while keeping its intelligibility.

2019-06-12 16:40:03
2 + 1 Twitter

https://ci.nii.ac.jp/naid/110007990635

2 0 0 0 VocaListenerによる学習データ生成を利用した多対多固有声変換に基づく歌声声質変換

著者: 土井啓成戸田智基中野倫靖後藤真孝中村哲
雑誌: 研究報告音楽情報科学(MUS)
巻号頁・発行日: vol.2012, no.5, pp.1-9, 2012-08-02

歌声の声質には,歌手の個人性が反映されており,他者の声質に自在に切り替えて歌うことは難しい.そこで我々は,歌声の声質を他者の歌声の声質へと自動変換することで,任意の声質での歌唱を実現する手法を提案し,歌唱という音楽表現の可能性を広げることを目指す.従来,統計的声質変換に基づく歌声声質変換が実現されていたが,提案手法では様々な声質に少ない負担で変換可能にするため,多対多固有声変換を導入する.これにより変換時に数秒程度の少量の無伴奏歌声さえあれば,任意の歌手の歌声から別の任意の歌手の歌声への声質変換が実現できる.しかし,その声質変換モデルの事前学習データとして,ある参照歌手の歌声と多くの事前収録目標歌手の歌声とのペアから構成されるパラレルデータセットが必要で,その歌声収録は困難であった.そこで提案手法では,歌唱表現を模倣できる歌声合成システム VocaListener を用いて目標歌手の歌声から参照歌手の歌声を生成することで,その学習データ構築を容易にする.実験結果から提案手法の有効性を確認した.

2017-12-07 01:16:29
2 + 1 Twitter

https://ci.nii.ac.jp/naid/110009432472

2 0 0 0 OA 機械翻訳システムの誤り分析のための誤り箇所選択手法

著者: 赤部晃一 Graham Neubig Sakriani Sakti 戸田智基中村哲
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 (ISSN:13407619)
巻号頁・発行日: vol.23, no.1, pp.87-117, 2016-01-25 (Released:2016-04-25)
参考文献数: 30

複雑化する機械翻訳システムを比較し,問題点を把握・改善するため,誤り分析が利用される.その手法として,様々なものが提案されているが,多くは単純にシステムの翻訳結果と正解訳の差異に着目して誤りを分類するものであり,人手による分析への活用を目的とするものではなかった.本研究では,人手による誤り分析を効率化する手法として,機械学習の枠組みを導入した誤り箇所選択手法を提案する.学習によって評価の低い訳出と高い訳出を分類するモデルを作成し,評価低下の手がかりを自動的に獲得することで,人手による誤り分析の効率化を図る.実験の結果,提案法を活用することで,人手による誤り分析の効率が向上した.

2016-10-01 13:58:35
2 + 0 Twitter

2 0 0 0 非可聴つぶやき認識のためのステレオ信号を用いたブラインド雑音抑圧法

著者: 石井隼太戸田智基猿渡洋 Sakuriani Sakti 中村哲
雑誌: 研究報告音声言語情報処理(SLP)
巻号頁・発行日: vol.2011, no.1, pp.1-8, 2011-10-21
被引用文献数: 2

静粛な環境などの発声行為自体を躊躇する状況においても音声入力を可能とする技術として,微弱な体内伝導音声である非可聴つぶやき (Non-Audible Murmur: NAM) を用いた音声認識 (NAM 認識) が提案されている.NAM は多人に聴受されないほど小さなささやき声であり,体表に直接圧着させる NAM マイクロフォンによって収録される.その一方で,ユーザの動作によっては,NAM マイクロフォンの圧着環境が大きく変動するため,収録信号に雑音が混入する.本報告では,ユーザ動作に起因する雑音が NAM 認識に与える影響を調査し,2 つの NAM マイクロフォンで収録されるステレオ信号を用いた雑音抑圧法を提案する.また,実験的評価により,提案法の有効性を示す.Recently, speech recognition with Non-Audible Murmur (NAM) was proposed in order to enable to use speech interfaces in quiet environments where we hesitate to speech. NAM is a very soft wispered voice detected with NAM microphone, which is one of the body-conductive microphones. The detected NAM signal suffers from noise caused by speaker's movement because the setting condition of NAM microphone is changed. In this paper, we investigate the effect of the noise on NAM recognition and propose a blind noise suppression method using a stereo signal detected with two NAM microphones. Experimental evaluations are conducted to show the effictiveness of the proposed method.

https://ci.nii.ac.jp/naid/110008668873

2 0 0 0 OA 自動プログラミングへ向けた問題解答コーパスの収集と考察

著者: 小田悠介ニュービッググラムサクティサクリアニ戸田智基中村哲
雑誌: 研究報告自然言語処理(NL)
巻号頁・発行日: vol.2014-NL-216, no.22, pp.1-8, 2014-05-15

プログラミングは人手による作業が主であり,最終的なソースコードそのものを生成する自動プログラミングシステムは実用化されていない.このような自動プログラミングシステムを学習,評価するためには,実際のプログラミングに関するタスクを切り出したコーパスの収集が必要である.我々はタスクとして「自然言語による仕様文が与えられたとき,その仕様に対応する関数を出力する」という問題を考え,仕様文・ソースコード例からなるパラレルコーパスを人手により収集した.また,得られたコーパスから自動プログラミングのために必要な言語処理の技術を考察した.

2015-11-16 06:20:47
2 + 0 Twitter

http://id.nii.ac.jp/1001/00101189/

2 0 0 0 HMM音声合成のための系列内変動を考慮した音声パラメータ生成アルゴリズム(合成, 生成, 韻律, 一般)

著者: 戸田智基徳田恵一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日: vol.105, no.253, pp.1-6, 2005-08-19

HMMに基づく音声合成方式では, あらかじめ音声パラメータ系列をモデル化するHMMを学習しておき, 合成時には入力テキストに対応するHMMから尤度最大化基準により音声パラメータを生成する.静的・動的特徴量間の明示的な制約条件を導入することで, 適切な遷移を満たすパラメータ系列の生成が可能となり, 不連続感の少ない滑らかで安定した合成音声が得られる.一方で, 音声信号がもつ詳細な特徴は統計処理により失われるため, 生成されるパラメータは過剰に平滑化されたものとなり, 合成音声の肉声感は大きく損なわれる.本稿では, 音響モデリングで失われる特徴量の一つとして, パラメータ系列全体における変動量に着目し, 従来考慮されている静的・動的特徴量に対する尤度のみでなく, 系列内変動に対する尤度も考慮した音声パラメータ生成アルゴリズムを提案する.新たに導入される尤度は, 従来法において顕著にみられる生成パラメータの系列内変動の減少を抑える働きをする.実験的評価結果から, 提案法により合成音声の自然性は大幅に改善されることを示す.

2012-06-06 13:05:57
2 + 2 Twitter

https://ci.nii.ac.jp/naid/110003298754

1 0 0 0 OA 嘘を発見する対話システム

著者: 角森唯子 Graham Neubig Sakriani Sakti 平岡拓也水上雅博戸田智基中村哲
出版者: 一般社団法人人工知能学会
雑誌: 人工知能学会研究会資料言語・音声理解と対話処理研究会 75回 (2015/10) (ISSN:09185682)
巻号頁・発行日: pp.04, 2015-10-26 (Released:2021-06-28)

When humans attempt to detect deception, they perform two actions: looking for telltale signs of deception, and asking questions to attempt to unveil a deceptive conversational partner. There has been a significant amount of prior work on automatic deception detection, which focuses on the former. On the other hand, we focus on the latter, constructing a dialog system for an interview task that acts as an interviewer asking questions to attempt to catch a potentially deceptive interviewee. We propose several dialog strategies for this system, and measure the utterance-level deception detection accuracy of each, finding that a more intelligent dialog strategy results in slightly better deception detection accuracy.

2023-08-03 00:55:03
1 + 4 Twitter

1 0 0 0 OA 確率モデルに基づく声質変換技術(<小特集>音声合成に関する研究の動向)

著者: 戸田智基
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.67, no.1, pp.34-39, 2010-12-25 (Released:2017-06-02)
参考文献数: 20

2023-02-26 20:24:21
1 + 2 Twitter

1 0 0 0 OA リー群論に基づく一般化ワーピング

著者: 宮下敦志戸田智基
雑誌: 研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日: vol.2023-SLP-146, no.34, pp.1-6, 2023-02-21

音声は順序を持ったデータ系列である.音声スペクトルの周波数軸伸縮や音声の話速制御,テキスト等の別の系列との対応付けなど,いくつかの音声処理は順序を保存するワーピング変換で表される.本報告では,全域通過フィルタを用いたワーピングをリー群として解析することで一般化し,一般ワーピング群 GW を導く.GW の時間領域,周波数領域,接ベクトル空間におけるパラメトリック表現を与え,普遍性や実装方法の観点から体系的に論ずる.

2023-02-22 14:19:54
1 + 3 Twitter

http://id.nii.ac.jp/1001/00224322/

1 0 0 0 OA 群論を用いた声道長変換の表現と解析的正規化処理

著者: 宮下敦志戸田智基
雑誌: 研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日: vol.2022-SLP-142, no.33, pp.1-6, 2022-06-10

音声認識モデルには,話者の違いによる発声の揺らぎに対して認識結果が不変であることが求められる.声道長変換はそのような揺らぎを模倣する変換の 1 つである.本報告では,全域通過フィルタによるワーピングで表される声道長変換について,群論を用いて別の変換式を与え,そこから解析的に導かれる声道長正規化処理を音声認識モデルの入力に用いる手法を提案する.提案手法では,学習データに依存しない特徴量表現を得ることが可能である.TIMIT データセットを用いた音素ラベル分類による実験的評価によって,学習データに含まれない仮想的な声道長の話者について,提案手法による汎化性能の向上が確認された.

2022-06-21 18:01:11
1 + 0 Twitter

http://id.nii.ac.jp/1001/00218384/

1 0 0 0 OA 統合型ソースフィルタネットワークによるニューラルボコーダ

著者: 米山怜於呉宜樵戸田智基
雑誌: 研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日: vol.2021-SLP-136, no.13, pp.1-6, 2021-02-24

本稿では,ソースフィルタ理論に基づくニューラルボコーダを単一のネットワークにより実現する手法を提案する.深層学習に基づく音声波形生成モデリングを実現するニューラルボコーダは,高品質な音声波形を生成できる一方で,完全データ駆動型の枠組みであるがゆえに,従来型ボコーダの利点の一つであった操作機能が低下する傾向にある.そのため,従来型ボコーダと同様に音源生成部と声道フィルタ部に分割し,どちらか一方に対してパラメトリックなモデルを導入する枠組みが盛んに研究されている.従来型ボコーダにおける近似を一部導入することで, 操作性を高めることが可能となるが,完全データ駆動型の枠組みと比較すると,音質が若干劣化する傾向にあり,また,操作機能についても未だ改善の余地がある.この問題に対し,本稿では,より近似の少ない枠組みとして,単一のニューラルネットワークに対してソースフィルタ理論の仕組みを導入した「統合型ソースフィルタネットワーク」を提案する.音源生成部と声道フィルタ部の両方をニューラルネットワークでモデル化して接続することで,統一的な訓練指標でネットワーク全体を最適化することを可能とするとともに,音源生成部のネットワーク出力に対する制約を導入することで,音源生成機能を備えたネットワークの学習を試みる.実験的評価の結果から,提案法は従来法であるニューラル・ソースフィルタと比較して,F0 変換精度を有意に改善できることを確認した.

2021-03-03 20:31:36
1 + 7 Twitter

http://id.nii.ac.jp/1001/00209649/

1 0 0 0 OA 統計的手法による音響イベント検出

著者: 林知樹戸田智基
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.75, no.9, pp.532-537, 2019-09-01 (Released:2020-03-01)
参考文献数: 48

2020-03-01 22:49:40
1 + 0 Twitter

1 0 0 0 大規模コーパスを用いた音声合成システムXIMERA

著者: 河井恒戸田智基山岸順一平井俊男倪晋富西澤信行津崎実徳田恵一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日: vol.89, no.12, pp.2688-2698, 2006-12-01
参考文献数: 43
被引用文献数: 15

本論文では,ATR音声言語コミュニケーション研究所が開発した新しい音声合成システムXIMERAについて述べる.XIMERAは,これまでATRで開発された音声合成システムυ-Talk及びCHATRと同様,コーパスベース方式を採用している.XIMERAの特長は,(1)大規模な音声コーパス(日本語男声110時間,日本語女声59時間,中国語女声20時間,それぞれ単一話者),(2)HMMを用いた韻律パラメータのモデル化及び生成,(3)知覚実験に基づく素片選択コスト関数の最適化,である.XIMERAの性能を評価するため,市販の音声合成システム10製品と合成音声の自然性を比較したところ,XIMERAが他のシステムより優れていることが示された.

2018-11-27 13:48:40
1 + 1 Wikipedia

https://ci.nii.ac.jp/naid/110007380404

««
«
1
2
»
»»