著者
水上 雅博 Lasguido Nio 木付 英士 野村 敏男 Graham Neubig 吉野 幸一郎 Sakriani Sakti 戸田 智基 中村 哲
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
pp.DSF-517, (Released:2015-12-15)
参考文献数
23
被引用文献数
1

In dialogue systems, dialogue modeling is one of the most important factors contributing to user satisfaction. Especially in example-based dialogue modeling (EBDM), effective methods for dialog example databases and selecting response utterances from examples improve dialogue quality. Conventional EBDM-based systems use example database consisting of pair of user query and system response. However, the best responses for the same user query are different depending on the user's preference. We propose an EBDM framework that predicts user satisfaction to select the best system response for the user from multiple response candidates. We define two methods for user satisfaction prediction; prediction using user query and system response pairs, and prediction using user feedback for the system response. Prediction using query/response pairs allows for evaluation of examples themselves, while prediction using user feedback can be used to adapt the system responses to user feedback. We also propose two response selection methods for example-based dialog, one static and one user adaptive, based on these satisfaction prediction methods. Experimental results showed that the proposed methods can estimate user satisfaction and adapt to user preference, improving user satisfaction score.
著者
大谷 大和 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.91, no.4, pp.1082-1091, 2008-04-01
被引用文献数
3

声質変換において,スペクトル特徴量系列の統計的モデル化技術の発展により,その変換性能は大幅に改善された.しかし,声質変換で用いられる音源モデルでは実際の音源を正確に表現できていないため,その変換音声の自然性は十分なものとはいいがたい.これを改善するために,スペクトル特徴量系列と同様に音源特徴量系列に対しても統計的なモデリングを行う必要がある.本論文では混合正規分布モデル(Gaussian Mixture Model: GMM)に基づく声質変換法の枠組みに対してSTRAIGHT混合励振源を導入する.提案法では,スペクトル特徴量系列及び音源特徴量系列に対して最ゆう推定(Maximum likelihood estimation: MLE)に基づく特徴量変換が行われる.客観評価実験並びに主観評価実験の結果より,提案法により音質,話者性変換精度が大きく改善されることを示す.
著者
岩見 洋平 戸田 智基 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.619, pp.11-16, 2003-01-24

音声における感情表現は韻律におおきく影響されるといわれており,これまで,韻律を制御するためのさまざまな分析と,その分析から得られる規則を用いた合成手法が報告されている.しかし,それらの報告において,韻律は感情表現において重要な要素であるが,韻律だけでなく声質も重要な要素であると指摘されている.そこで本報告では,感情音声の声質を制御する手法として, GMM (Gaussian Mixture Model)に基づく声質変換を用いた感情音声合成手法を提案する.この手法では読み上げ調に発話された音声の声質を,感情音声のそれに変換する.本研究でははじめに,怒り,悲しみ,喜び,読み上げ調(平静)の音声データを収録した.そして,その音声を用いて感情音声への声質変換を行い,客観評価実験及び主観評価実験を行った.その結果,声質変換のみでは感情表現は不十分であるが,適切な韻律が与えられた場合,声質変換を行うことにより,感情の表現力が向上することが分かった.本報告では,感情音声データベースの作成と,その音声から作成した感情間の声質変換音声の評価について報告する.
著者
戸田 智基
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.72, no.6, pp.324-331, 2016 (Released:2017-07-01)
参考文献数
33
著者
土井 啓成 中村 圭吾 戸田 智基 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.18, pp.1-6, 2009-07-10
参考文献数
11

喉頭摘出者が行う発声法の一つに,食道等を用いて音源を生成し,発声を行う食道発声法がある.食道発声法は国内で広く使用されているが,生成された音声は健常者の音声と比較して不自然である.本稿では,食道発声音声の音質改善を目指し,食道発声音声から健常者音声への統計的声質変換を用いた音質改善法 (ES-to-Speech) を提案する.健常者音声のスペクトル特徴量や F₀,非周期成分といった音源特徴量は,それぞれ食道発声音声のスペクトル特徴量から独立に推定する.変換音声の客観評価実験及び,主観評価実験結果から,ES-to-Speech は,食道発声と同等の明瞭性を保ったまま,自然性を大きく改善できることを示す.また,F₀ 推定時に,入力特徴量として食道発声音声のスペクトルと F₀ の併用も試みることで,食道発声音声の F₀ 情報を用いる効果を検証する.This paper proposes a novel method of enhancing esophageal speech based on statistical voice conversion. Esophageal speech is one of the speaking methods for total laryngectomees to speak by generating sound excitations at their esophagus. Although esophageal speech is the major method in Japan, the generated voices sound unnatural. To improve naturalness of the esophageal speech, we propose a conversion method from esophageal speech to normal speech (ES-to-Speech) using a statistical voice conversion technique. Spectral features and excitation features, such as F₀ and aperiodic components, of the normal speech are independently estimated from the spectral features of the esophageal speech based on the maximum likelihood criterion. The effectiveness of ES-to-Speech is evaluated by conducting objective and subjective experiments to demonstrate that the proposed method yields significant improvements in naturalness of esophageal speech while keeping its intelligibility.
著者
土井啓成 戸田智基 中野倫靖 後藤真孝 中村哲
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.5, pp.1-9, 2012-08-02

歌声の声質には,歌手の個人性が反映されており,他者の声質に自在に切り替えて歌うことは難しい.そこで我々は,歌声の声質を他者の歌声の声質へと自動変換することで,任意の声質での歌唱を実現する手法を提案し,歌唱という音楽表現の可能性を広げることを目指す.従来,統計的声質変換に基づく歌声声質変換が実現されていたが,提案手法では様々な声質に少ない負担で変換可能にするため,多対多固有声変換を導入する.これにより変換時に数秒程度の少量の無伴奏歌声さえあれば,任意の歌手の歌声から別の任意の歌手の歌声への声質変換が実現できる.しかし,その声質変換モデルの事前学習データとして,ある参照歌手の歌声と多くの事前収録目標歌手の歌声とのペアから構成されるパラレルデータセットが必要で,その歌声収録は困難であった.そこで提案手法では,歌唱表現を模倣できる歌声合成システム VocaListener を用いて目標歌手の歌声から参照歌手の歌声を生成することで,その学習データ構築を容易にする.実験結果から提案手法の有効性を確認した.
著者
赤部 晃一 Graham Neubig Sakriani Sakti 戸田 智基 中村 哲
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.87-117, 2016-01-25 (Released:2016-04-25)
参考文献数
30

複雑化する機械翻訳システムを比較し,問題点を把握・改善するため,誤り分析が利用される.その手法として,様々なものが提案されているが,多くは単純にシステムの翻訳結果と正解訳の差異に着目して誤りを分類するものであり,人手による分析への活用を目的とするものではなかった.本研究では,人手による誤り分析を効率化する手法として,機械学習の枠組みを導入した誤り箇所選択手法を提案する.学習によって評価の低い訳出と高い訳出を分類するモデルを作成し,評価低下の手がかりを自動的に獲得することで,人手による誤り分析の効率化を図る.実験の結果,提案法を活用することで,人手による誤り分析の効率が向上した.
著者
石井 隼太 戸田 智基 猿渡 洋 Sakuriani Sakti 中村 哲
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.1, pp.1-8, 2011-10-21
被引用文献数
2

静粛な環境などの発声行為自体を躊躇する状況においても音声入力を可能とする技術として,微弱な体内伝導音声である非可聴つぶやき (Non-Audible Murmur: NAM) を用いた音声認識 (NAM 認識) が提案されている.NAM は多人に聴受されないほど小さなささやき声であり,体表に直接圧着させる NAM マイクロフォンによって収録される.その一方で,ユーザの動作によっては,NAM マイクロフォンの圧着環境が大きく変動するため,収録信号に雑音が混入する.本報告では,ユーザ動作に起因する雑音が NAM 認識に与える影響を調査し,2 つの NAM マイクロフォンで収録されるステレオ信号を用いた雑音抑圧法を提案する.また,実験的評価により,提案法の有効性を示す.Recently, speech recognition with Non-Audible Murmur (NAM) was proposed in order to enable to use speech interfaces in quiet environments where we hesitate to speech. NAM is a very soft wispered voice detected with NAM microphone, which is one of the body-conductive microphones. The detected NAM signal suffers from noise caused by speaker's movement because the setting condition of NAM microphone is changed. In this paper, we investigate the effect of the noise on NAM recognition and propose a blind noise suppression method using a stereo signal detected with two NAM microphones. Experimental evaluations are conducted to show the effictiveness of the proposed method.
著者
小田悠介 ニュービッググラム サクティサクリアニ 戸田智基 中村哲
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.22, pp.1-8, 2014-05-15

プログラミングは人手による作業が主であり,最終的なソースコードそのものを生成する自動プログラミングシステムは実用化されていない.このような自動プログラミングシステムを学習,評価するためには,実際のプログラミングに関するタスクを切り出したコーパスの収集が必要である.我々はタスクとして 「自然言語による仕様文が与えられたとき,その仕様に対応する関数を出力する」 という問題を考え,仕様文・ソースコード例からなるパラレルコーパスを人手により収集した.また,得られたコーパスから自動プログラミングのために必要な言語処理の技術を考察した.
著者
戸田 智基 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.253, pp.1-6, 2005-08-19

HMMに基づく音声合成方式では, あらかじめ音声パラメータ系列をモデル化するHMMを学習しておき, 合成時には入力テキストに対応するHMMから尤度最大化基準により音声パラメータを生成する.静的・動的特徴量間の明示的な制約条件を導入することで, 適切な遷移を満たすパラメータ系列の生成が可能となり, 不連続感の少ない滑らかで安定した合成音声が得られる.一方で, 音声信号がもつ詳細な特徴は統計処理により失われるため, 生成されるパラメータは過剰に平滑化されたものとなり, 合成音声の肉声感は大きく損なわれる.本稿では, 音響モデリングで失われる特徴量の一つとして, パラメータ系列全体における変動量に着目し, 従来考慮されている静的・動的特徴量に対する尤度のみでなく, 系列内変動に対する尤度も考慮した音声パラメータ生成アルゴリズムを提案する.新たに導入される尤度は, 従来法において顕著にみられる生成パラメータの系列内変動の減少を抑える働きをする.実験的評価結果から, 提案法により合成音声の自然性は大幅に改善されることを示す.
著者
米山 怜於 呉 宜樵 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.13, pp.1-6, 2021-02-24

本稿では,ソースフィルタ理論に基づくニューラルボコーダを単一のネットワークにより実現する手法を提案する.深層学習に基づく音声波形生成モデリングを実現するニューラルボコーダは,高品質な音声波形を生成で きる一方で,完全データ駆動型の枠組みであるがゆえに,従来型ボコーダの利点の一つであった操作機能が低下する 傾向にある.そのため,従来型ボコーダと同様に音源生成部と声道フィルタ部に分割し,どちらか一方に対してパラ メトリックなモデルを導入する枠組みが盛んに研究されている.従来型ボコーダにおける近似を一部導入することで, 操作性を高めることが可能となるが,完全データ駆動型の枠組みと比較すると,音質が若干劣化する傾向にあり,ま た,操作機能についても未だ改善の余地がある.この問題に対し,本稿では,より近似の少ない枠組みとして,単一 のニューラルネットワークに対してソースフィルタ理論の仕組みを導入した「統合型ソースフィルタネットワーク」を提案する.音源生成部と声道フィルタ部の両方をニューラルネットワークでモデル化して接続することで,統一的 な訓練指標でネットワーク全体を最適化することを可能とするとともに,音源生成部のネットワーク出力に対する制 約を導入することで,音源生成機能を備えたネットワークの学習を試みる.実験的評価の結果から,提案法は従来法であるニューラル・ソースフィルタと比較して,F0 変換精度を有意に改善できることを確認した.
著者
河井 恒 戸田 智基 山岸 順一 平井 俊男 倪 晋富 西澤 信行 津崎 実 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2688-2698, 2006-12-01
参考文献数
43
被引用文献数
15

本論文では,ATR音声言語コミュニケーション研究所が開発した新しい音声合成システムXIMERAについて述べる.XIMERAは,これまでATRで開発された音声合成システムυ-Talk及びCHATRと同様,コーパスベース方式を採用している.XIMERAの特長は,(1)大規模な音声コーパス(日本語男声110時間,日本語女声59時間,中国語女声20時間,それぞれ単一話者),(2)HMMを用いた韻律パラメータのモデル化及び生成,(3)知覚実験に基づく素片選択コスト関数の最適化,である.XIMERAの性能を評価するため,市販の音声合成システム10製品と合成音声の自然性を比較したところ,XIMERAが他のシステムより優れていることが示された.
著者
全 炳河 大浦圭一郎 能勢 隆 山岸 順一 酒向慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.301-306, 2007-12-21

近年,隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
田中 宏季 サクリアニ サクティ グラム ニュービック 戸田 智基 中村 哲
出版者
一般社団法人 人工知能学会
雑誌
JSAI大会論文集
巻号頁・発行日
vol.2014, pp.2H4NFC04b3, 2018-07-30

<p>自閉症スペクトラム障害とは、社会性とコミュニケーションに困難がある発達障害であり、言語と非言語の表出に影響を及ぼすと報告されている。特に他人とのインタラクションにおいて定型発達児と比較した際の特異性がこれまで報告されている。本研究では、自閉症児のコミュニケーション支援に向けた対話システムを開発するため、保護者とのインタラクションにおける発話応答時間と応答内容の分析を行った。</p>
著者
土井啓成 戸田智基 中野倫靖 後藤真孝 中村哲
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-96, no.5, pp.1-9, 2012-08-02

歌声の声質には,歌手の個人性が反映されており,他者の声質に自在に切り替えて歌うことは難しい.そこで我々は,歌声の声質を他者の歌声の声質へと自動変換することで,任意の声質での歌唱を実現する手法を提案し,歌唱という音楽表現の可能性を広げることを目指す.従来,統計的声質変換に基づく歌声声質変換が実現されていたが,提案手法では様々な声質に少ない負担で変換可能にするため,多対多固有声変換を導入する.これにより変換時に数秒程度の少量の無伴奏歌声さえあれば,任意の歌手の歌声から別の任意の歌手の歌声への声質変換が実現できる.しかし,その声質変換モデルの事前学習データとして,ある参照歌手の歌声と多くの事前収録目標歌手の歌声とのペアから構成されるパラレルデータセットが必要で,その歌声収録は困難であった.そこで提案手法では,歌唱表現を模倣できる歌声合成システム VocaListener を用いて目標歌手の歌声から参照歌手の歌声を生成することで,その学習データ構築を容易にする.実験結果から提案手法の有効性を確認した.
著者
中村 哲 岩坂 英巳 根來 秀樹 サクリアニ サクティ 戸田 智基 Neubig Graham 田中 宏季
出版者
奈良先端科学技術大学院大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2014-04-01

自動ソーシャルスキルトレーナと題して,ソーシャルスキルトレーニング(SST)の過程を人間と対話エージェントの会話によって自動化する研究を進めてきた。これまでに開発したシステムは、自閉スペクトラム症での効果測定をしていなかったという問題があった。最終的な実験的評価として、自動ソーシャルスキルトレーナを使用し、10 名の自閉スペクトラム症者における訓練の効果を調査した。50 分間のシステムを使用した訓練実験により、有意に話のスキルが向上していることを示し、自動ソーシャルスキルトレーニングが有効であることを示してきた。これからも希望者がいつでもどこでも手軽に使用できる SST を目指していく。