著者
全 炳河 大浦圭一郎 能勢 隆 山岸 順一 酒向慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.301-306, 2007-12-21

近年,隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
田中 宏季 サクリアニ サクティ グラム ニュービック 戸田 智基 中村 哲
出版者
一般社団法人 人工知能学会
雑誌
JSAI大会論文集
巻号頁・発行日
vol.2014, pp.2H4NFC04b3, 2018-07-30

<p>自閉症スペクトラム障害とは、社会性とコミュニケーションに困難がある発達障害であり、言語と非言語の表出に影響を及ぼすと報告されている。特に他人とのインタラクションにおいて定型発達児と比較した際の特異性がこれまで報告されている。本研究では、自閉症児のコミュニケーション支援に向けた対話システムを開発するため、保護者とのインタラクションにおける発話応答時間と応答内容の分析を行った。</p>
著者
土井啓成 戸田智基 中野倫靖 後藤真孝 中村哲
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-96, no.5, pp.1-9, 2012-08-02

歌声の声質には,歌手の個人性が反映されており,他者の声質に自在に切り替えて歌うことは難しい.そこで我々は,歌声の声質を他者の歌声の声質へと自動変換することで,任意の声質での歌唱を実現する手法を提案し,歌唱という音楽表現の可能性を広げることを目指す.従来,統計的声質変換に基づく歌声声質変換が実現されていたが,提案手法では様々な声質に少ない負担で変換可能にするため,多対多固有声変換を導入する.これにより変換時に数秒程度の少量の無伴奏歌声さえあれば,任意の歌手の歌声から別の任意の歌手の歌声への声質変換が実現できる.しかし,その声質変換モデルの事前学習データとして,ある参照歌手の歌声と多くの事前収録目標歌手の歌声とのペアから構成されるパラレルデータセットが必要で,その歌声収録は困難であった.そこで提案手法では,歌唱表現を模倣できる歌声合成システム VocaListener を用いて目標歌手の歌声から参照歌手の歌声を生成することで,その学習データ構築を容易にする.実験結果から提案手法の有効性を確認した.
著者
中村 哲 岩坂 英巳 根來 秀樹 サクリアニ サクティ 戸田 智基 Neubig Graham 田中 宏季
出版者
奈良先端科学技術大学院大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2014-04-01

自動ソーシャルスキルトレーナと題して,ソーシャルスキルトレーニング(SST)の過程を人間と対話エージェントの会話によって自動化する研究を進めてきた。これまでに開発したシステムは、自閉スペクトラム症での効果測定をしていなかったという問題があった。最終的な実験的評価として、自動ソーシャルスキルトレーナを使用し、10 名の自閉スペクトラム症者における訓練の効果を調査した。50 分間のシステムを使用した訓練実験により、有意に話のスキルが向上していることを示し、自動ソーシャルスキルトレーニングが有効であることを示してきた。これからも希望者がいつでもどこでも手軽に使用できる SST を目指していく。
著者
徳田恵一 峯松信明 戸田智基 額賀信尾 平井啓之
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.7, pp.1-6, 2014-01-24

情報処理研究会音声言語情報処理研究会 (SIG-SLP) 第 100 回記念シンポジウムにおいて,音声合成研究の流れを俯瞰し,今後の目標・応用や方法論を探ることを目的としたテーマセッションを実施する.本稿は,そこでの発表内容の概要を,登壇者がそれぞれ執筆したものである.
著者
関本 英彦 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.221, pp.37-42, 2006-08-23
被引用文献数
4

携帯電話が普及するにつれて,「いつでも」「どこでも」コミュニケーションができるようになった.携帯電話を使うことがとても便利である反面,外部雑音の影響により,正しい内容を受聴できない問題がある.例えば,人ごみの中といった騒音による影響のため,小声でプライベートな会話ができない.本稿では,外部雑音に頑健な非可聴つぶやき(Non-Audible Murmur: NAM)マイクを用いた小声(Small Body Transmitted Ordinary Speech: SBTOS)によるコミュニケーションを考える.NAMマイクで収録された音声(肉伝導音声)は外部雑音に頑健である反面,こもった音声になり,聞き取りが困難である.そのため,混合正規分布モデル(Gaussian Mixture Model: GMM)を用いた声質変換技術により音質改善を行う.その際に,SBTOSから通常音声へと変換(SBTOS-to-SP),また小声へと変換(SBTOS-to-SSP)を検討する.入出力間における有声無声の一致率を調べたところ,SBTOS-to-SSPはSBTOS-to-SPよりも一致していることがわかった.客観,及び主観評価実験の結果,SBTOS-to-SSPはSBTOS-to-SPより優れていることがわかった.
著者
小田 悠介 札場 寛之 ニュービッグ グラム サクティ サクリアニ 戸田 智基 中村 哲
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-219, no.12, pp.1-9, 2014-12-09

プログラミング初学者にとって,与えられたソースコードがどのような処理内容なのかを把握するのは容易ではない.そこでソースコード読解支援のために,与えられたソースコードから処理内容を示すコメントを自動的に生成し,ソースコードと共に提示することで読解を促すシステムが考えられる.本研究ではコメント生成のために Tree-to-String 統計翻訳の枠組みを使用し,プログラミング言語の構文木とコメントに対して翻訳器を学習することで,ソースコードから統計的にコメントを生成するシステムを提案する.
著者
中村 哲 松本 裕治 戸田 智基 サクリアニ サクティ Neubig Graham Duh Kevin 小町 守 高道 慎之介
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(A)
巻号頁・発行日
2012-05-31

同時通訳基本方式研究として、フレーズベース統計翻訳における右確率を用いた同時通訳方法により、翻訳単位を短くする方法、翻訳単位の長さを調整する手法を提案した。さらに、形態素情報を使って文を分割する方法、Tree-to-string翻訳での部分構文構造を考慮して分割する方法を提案して高精度化を実現。さらなる精度改善のため、訳文に単語順序の入れ替えが発生するかを予測するモデルを構築すると共に、ニューラル翻訳の実装、統計翻訳のリランキング、注意型ニューラル翻訳の研究を進めた。また、同時通訳コーパスとして日英合計約80時間、講義データの書き起こし約50時間、うち約22時間分の日英翻訳を完了した。
著者
戸田 智基
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.422, pp.73-78, 2009-01-22

声質変換は,言語情報を保存したまま話者性等の非言語情報を変換する技術である.従来の統計的手法に基づく枠組みでは,入力話者と出力話者が同一内容を発声しているパラレルデータを数十文程度用いて,特定話者対を対象とした変換モデルを事前に学習する必要がある.我々は,この制約を大きく緩和する枠組みとして,任意の話者を対象とした声質変換技術の研究開発に取り組んでいる.多数の異なる話者の音声データを有効利用することで,任意の話者からある特定の話者への変換(多対一声質変換)と,ある特定の話者から任意の話者への変換(一対多声質変換)が可能となる.本報告では,これらの変換を実現する技術について紹介する.
著者
戸田 智基 大谷 大和 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.221, pp.25-30, 2006-08-23
被引用文献数
2

声質変換(Voice Conversion: VC)の新しい枠組みとして,固有声に基づく声質変換法(Eigenvoice Conversion: EVC)を提案する.本報告では,ある特定の話者から任意の話者への変換(一対多VC),および任意の話者からある特定の話者への変換(多対一VC)に対してEVCを適用する.EVCでは,予め収録された多数話者によるパラレルデータを用いて,固有声混合正規分布モデル(Eigenvoice Gaussian Mixture Model: EV-GMM)を事前に学習する.EV-GMMは出力(多対一VCでは入力)音声の声質を制御する少量のフリーパラメータを持つ.所望の話者に対する変換モデルは,その話者の音声データに対してフリーパラメータを最尤推定する事で構築される.この際に,発話内容に関する情報は一切使用しないため,完全な教師なしモデル適応が実現される.さらに,一対多VCにおいては,フリーパラメータを声質制御イコライザーとして用いることで,出力変換音声の声質を手動で制御する事も可能である.一対多VCおよび多対一VCにおいて実験的評価を行った結果,EVCでは所望の話者の音声データが2文程度あれば,高い変換精度が得られる事が分かった.
著者
猿渡 洋 鹿野 清宏 戸田 智基 川波 弘道 小野 順貴 宮部 滋樹 牧野 昭二 小山 翔一
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

本研究では、高次統計量追跡による自律カスタムメイド音声コミュニケーション拡張システムに関して研究を行った。具体的なシステムとして、ブラインド音源分離に基づく両耳補聴システムや声質変換に基づく発声補助システムを開発し、以下の成果が得られた。(1)両耳補聴システムに関しては、高精度かつ高速なブラインド音源分離及び統計的音声強調アルゴリズムを提案し、聴覚印象の不動点を活用した高品質な音声強調システムが実現できた。(2)発声補助システムに関しては、データベース間における発話のミスマッチを許容する声質変換処理を開発した。実環境模擬データベースを用いてその評価を行い、有効性を確認することが出来た。
著者
中村 圭吾 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. WIT, 福祉情報工学 (ISSN:09135685)
巻号頁・発行日
vol.109, no.260, pp.49-54, 2009-10-22
参考文献数
21

本稿では,喉頭摘出者が外部機器を用いた電気音声に対して,統計的声質変換を適用した実験的評価を報告する.用いる外部機器として,1)周囲の者に聴取されないほど微弱な信号を出力する音源,2)従来のモノトーンピッチを出力する電気式人工喉頭,及び3)ユーザが気管孔から出力する呼気圧でF_0を制御する呼気センサーを用いた電気式人工喉頭の3種類を用いる.発声された電気音声は,ヘッドセットマイクロフォンまたはNon-audible murmurマイクロフォンで収録され,ささやき声または通常音声のいずれかに変換される.実験的評価の結果,1)呼気センサーの使用はF_0推定の精度を改善するのに有効である,2)入力F_0を用いる効果は薄いが,声質変換性能は特に劣化しない,3)全ての変換の枠組みおいて自然性が大きく改善し,変換音声は元の電気音声と比べてより好ましいことを確認する.
著者
全 炳河 大浦 圭一郎 能勢 隆 山岸 順一 酒向 慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.405, pp.301-306, 2007-12-13

近年,隠れマルコフモデル(HMM)に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存HMMにより同時にモデル化される.音声合成時は,合成したい文章に対応するHMMからの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002年より我々は,HMMに基づく音声合成のための研究・開発ツール「HMM音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
戸田 智基 河井 恒 津崎 実 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.291, pp.19-24, 2002-08-22
被引用文献数
2

素片選択に基づく波形接続型テキスト音声合成において自然性の高い合成音声を得るためには,知覚特性に一致したコストを用いることが重要である.本稿では知覚実験により求めた知覚スコアを用いることにより,コストの知覚特性に基づく評価を行う.その際に,コストと知覚スコア間の対応関係を明らかにするだけでなく,素片系列のコストを求めるために必要な各素片におけるコストを統合する関数についても検討する.実験結果から,合成音声全体における平均的な自然性劣化を表す平均コストは,局所的な自然性劣化を表す最大コストよりも知覚スコアとの対応が良いことを示す.また,平均的な自然性劣化と局所的な自然性劣化の両方を考慮するコストであるRMSコストを用いた際に,最も知覚スコアとの対応が良いことも示す.さらに,RMSコストによる素片選択に関しての検討を行うことにより,RMSコスト使用時には局所的な大きな自然性劣化を防ぐために,より短い単位の素片が多く用いられる傾向があることを示す.
著者
戸田 智基 河井 恒 津崎 実 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.603, pp.45-52, 2002-01-17
被引用文献数
2

本稿では, 日本語テキスト音声合成(TTS : Text-to-Speech)における新たな単位選択法を提案する.日本語では, 母音の無声化を除くとCV(C : 子音, V : 母音)とVから音節が構成されるため, 合成単位としてCV単位がよく用いられる.しかし, 波形接続型のTTSにおいてCV単位を用いて音声を合成すると, VからVへの接続によりしばしば不連続感が生じる.V-V接続を防ぐためにより長い単位(CV^*単位や可変長単位)がこれまでに提案されているが, V-V接続の問題はまだ解決されていない.そこで, V-V接続により生じる不連続感を低減する手法として, 音素単位とダイフォン単位に基づいた新たな単位選択法を提案する.提案法では, 音素境界における接続だけでなく, 母音中心における接続も考慮して単位選択が行われる.評価実験結果から, 提案法は音素単位に基づいた従来法と比較し, よりよい性能をもっことが明らかになった.