著者
河井 恒 広瀬 啓吉 藤崎 博也
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.6, pp.433-442, 1994-06-01 (Released:2017-06-02)
参考文献数
19

規則による日本語の音声合成において、高品質の韻律的特徴を生成しうる規則を作成した。この規則は、アクセント型、統語構造、文の焦点などの言語情報から韻律的特徴を表現する記号を生成する。韻律記号は、3種類の休止記号、4種類のフレーズ記号、及び6種類のアクセント記号からなり、音声の基本周波数パターンを生成するために用いられる。統語構造は、文境界、節境界、ICRLB境界などの統語境界によって表され、主として休止記号とフレーズ記号の生成に用いられる。一方、文の焦点は、韻律語の強調/抑圧として表され、アクセント記号の生成に用いられる。規則によって生成された韻律的特徴の正当性を評価するため、規則作成に用いたものとは別の文章を対象として、規則によって生成された韻律上の単位と職業アナウサが発声した自然音声の韻律上の単位との対応関係を調べた。その結果、両者は70〜90%の高い割合で一致しており、合成音声の自然性とあいまって本規則の有効性が示された。
著者
松田 繁樹 林 輝昭 葦苅 豊 志賀 芳則 柏岡 秀紀 安田 圭志 大熊 英男 内山 将夫 隅田 英一郎 河井 恒 中村 哲
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.10, pp.2549-2561, 2013-10-01

本論文では,独立行政法人情報通信研究機構(NICT)が開発した世界初のスマートフォン用多言語音声翻訳アプリケーション"VoiceTra"を用いた大規模実証実験に関して,VoiceTraシステムの概要,クライアントサーバ間の通信プロトコル,本システムで用いられた多言語音声認識,多言語翻訳,多言語音声合成の詳細を述べる.また,本実証実験中に収集された約1000万の実利用音声データの一部について,聴取による利用形態の分析,更に,実験期間中に行った音声認識用音響モデル,言語モデルの教師無し適応,言語翻訳用辞書の追加に対する音声認識,音声翻訳性能の改善について述べる.
著者
河井恒久友水 纂述
出版者
柳枝軒
巻号頁・発行日
vol.[1], 1685
著者
河井恒久友水 纂述
出版者
柳枝軒
巻号頁・発行日
vol.[3], 1685
著者
小椋 忠志 MAGASSOUBA Aly 杉浦 孔明 平川 翼 山下 隆義 藤吉 弘亘 河井 恒
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回全国大会(2020)
巻号頁・発行日
pp.1Q3GS1105, 2020 (Released:2020-06-19)

生活支援ロボットは,在宅介護労働者の不足に対する有望な解決策である. 一方で,生活支援ロボットの主な制限の1つに,言語を介して自然に相互作用できない点がある. 近年の研究では,data-drivenのアプローチがあいまいな指示の処理に有効であることが示されているものの,大規模なデータセットを必要とすることが多く,その構築は時間と費用を要する. したがって,生活支援ロボットにおける命令文の自動生成手法は,このコストを大幅に削減し,アノテーション作業の負担を軽減することが期待できる. そこで本稿では,入力画像から把持命令文を生成する手法を提案する. 提案手法は,subword-levelの注意機構を持ち,subword embeddingに基づいて文を生成するMultimodal Attention Branchを有する. 実験では,画像キャプショニングに適した4つの標準的な尺度を使用して提案手法とベースライン手法との比較を行った. 実験結果では,提案手法がこれらの尺度においてベースライン手法を上回ることを示した.
著者
河井 恒 戸田 智基 山岸 順一 平井 俊男 倪 晋富 西澤 信行 津崎 実 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2688-2698, 2006-12-01
参考文献数
43
被引用文献数
15

本論文では,ATR音声言語コミュニケーション研究所が開発した新しい音声合成システムXIMERAについて述べる.XIMERAは,これまでATRで開発された音声合成システムυ-Talk及びCHATRと同様,コーパスベース方式を採用している.XIMERAの特長は,(1)大規模な音声コーパス(日本語男声110時間,日本語女声59時間,中国語女声20時間,それぞれ単一話者),(2)HMMを用いた韻律パラメータのモデル化及び生成,(3)知覚実験に基づく素片選択コスト関数の最適化,である.XIMERAの性能を評価するため,市販の音声合成システム10製品と合成音声の自然性を比較したところ,XIMERAが他のシステムより優れていることが示された.
著者
河井 恒 広瀬 啓吉 藤崎 博也
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.6, pp.433-442, 1994-06-01
参考文献数
19
被引用文献数
8

規則による日本語の音声合成において、高品質の韻律的特徴を生成しうる規則を作成した。この規則は、アクセント型、統語構造、文の焦点などの言語情報から韻律的特徴を表現する記号を生成する。韻律記号は、3種類の休止記号、4種類のフレーズ記号、及び6種類のアクセント記号からなり、音声の基本周波数パターンを生成するために用いられる。統語構造は、文境界、節境界、ICRLB境界などの統語境界によって表され、主として休止記号とフレーズ記号の生成に用いられる。一方、文の焦点は、韻律語の強調/抑圧として表され、アクセント記号の生成に用いられる。規則によって生成された韻律的特徴の正当性を評価するため、規則作成に用いたものとは別の文章を対象として、規則によって生成された韻律上の単位と職業アナウサが発声した自然音声の韻律上の単位との対応関係を調べた。その結果、両者は70〜90%の高い割合で一致しており、合成音声の自然性とあいまって本規則の有効性が示された。
著者
加藤 恒夫 河井 恒 宇都宮 栄二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.107, pp.39-44, 2006-10-20
被引用文献数
2

携帯電話アプリケーションの日本語入力を支援するため、2006年1月よりコンシューマ向けに分散型音声認識のサービスを開始した。携帯電話マイクに入力された音声は携帯電話機上で音響特徴量に変換され、パケット通信で音声認識サーバに送信される。携帯電話が音声認識サーバから受信した認識結果は画面表示されるため、ユーザは瞬時に認識結果を確認し、認識を誤った場合にも誤認識箇所を部分的に修正することができる。音声認識に対するストレスや不安を軽減するため、携帯電話機上の特徴量抽出処理をリアルタイム化し応答時間を数秒に短縮するとともに、誤認識の可能性が高い場合に「声が大きすぎます」、「雑音が大きすぎます」、「発声が早すぎます」と3種類のアラームを発生する機能を追加した。また、ネットワークのコンテンツに日々追加される新しいキーワードを認識できるようにするため、サービスを停止せずに単語辞書・文法を更新する機能を開発した。To assist Japanese text input for applications on cellphones, a distributed speech recognition service for consumer applications was launched in January 2006. Speech input to a microphone is processed for acoustic feature extraction on the cellphone, then the features are transmitted to a speech recognition server by packet exchange, and recognition results received from the server are displayed on the screen. The recognition results are confirmed by sight, and partial correction of misrecognized words is possible if any. To reduce stress and unfamiliarity to speech recognition technology, response time from the server was shorten to a few seconds by real-time acoustic feature extraction on the cellphones, and warning function of three alarms, "Voice too loud ", "Noise too loud", and "Uttered too early", were added to the client software. Moreover, a function of reloading new grammars and lexicons through a nonstop operation is equipped on the speech recognition server to enable frequent update of grammars and lexicons for network contents.
著者
翠 輝久 水上 悦雄 志賀 芳則 川本 真一 河井 恒 中村 哲
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. A, 基礎・境界 (ISSN:09135707)
巻号頁・発行日
vol.95, no.1, pp.16-26, 2012-01-01
参考文献数
22
被引用文献数
1

ユーザの自然な聞き手反応を喚起する対話システムの構築を目指して,人が対話を行う際に表出する韻律表現を生成する対話スタイルのテキスト音声合成器(TTS)の構築を行う.構築した対話スタイルのTTSを利用してユーザに情報を提示する音声対話システムを実装し,システムに対するユーザの聞き手反応に基づいてTTSの評価を行った.評価の結果,我々が構築したTTSにより,ユーザの感情を判定可能な自然な聞き手反応を引き出すことができることを確認し,自然な対話スタイルの音声を生成することは,ユーザからシステムにとって有益な情報を引き出す効果があることが分かった.
著者
倪 晋富 河井 恒 津崎 実
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.263, pp.19-24, 2003-08-14

波形素片接続型音声合成の音質を向上させようとすると,大規模な音声コーパスが必要となり,結果的に音声収録に数ヶ月〜数年という長期間を要する。録音セッションが異なると録音系の特性が変化する可能性があり,その結果多少とも声質が変化する。本稿では,1名の男性話者が2年間に677回発声した同一の日本語文の音声データを試料として用い,長時間平均パワースペクトルの等価に関する実験を行った結果について報告する。まず,フレーム長の設定など,長時間平均パワースペクトル推定の最適条件について検討する。さらに,4種類のフィルタ,すなわちLPC係数を介して設計されたIIRフィルタ,MLSAフィルタ,ケプストラムにもとづく平滑化を伴うFIR,メルケプストラムにもとづく平滑化を伴うFIR,を等価フィルタとして取り上げ,それぞれの最適な設計条件を検討する。各フィルタの等価効果の比較は,等価対象音声の音響的特微量のガウス分布に関する尤度にもとづいて行う。予備的な主観評価実験の結果,提案手法が録音系周波数特性の等価に有効であり,かつ音質劣化を生じないことが示唆された。
著者
河井 恒
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.97, pp.19-24, 2005-05-19
被引用文献数
4

筆者らが100時間超の大規模音声コーパスを用いる波形素片接続型音声合成システムを開発した過程で得た知見にもとづいて、(1)音声コーパス規模と合成音声の音質の関係、(2)コーパス設計手法とその効果、(3)音声コーパス作成手順と若干のノウハウ、(4)音素自動セグメンテーションの精度と有効性、(5)声質変動、に関して述べる。
著者
西澤 信行 河井 恒
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.572, pp.67-72, 2006-01-20

最良優先探索に基づく素片選択処理について検討を行う. 多くの素片接続型音声合成システムでは, 動的計画法に基づく素片選択処理が行われているが, それ以外の探索手法として, ヒューリスティックを基づく手法が考えられる. 本研究ではA^*アルゴリズムに着目し, 許容的でないヒューリスティック関数を用いた場合も考慮した, 素片選択アルゴリズムを導入する. 素片選択処理において, 複雑な処理を要するヒューリスティック関数の導入は現実的ではないことから, 本研究では, 平均コストを用いた単純なヒューリスティック関数を用いることとした. 実際の素片選択処理では, 可能な処理時間が限られているが, これに対応する実験として, 従来法であるビームサーチを併用した動的計画法に基づく探索と, 最良優先探索のそれぞれについて, 接続コスト計算回数が同一条件となるような素片選択実験を行い, それら結果をコスト上で比較した. 実験結果では, 従来手法と比較し, 最良優先探索により良い結果を得ることができなかったが, 素片選択への最良優先探索適用は, 同一仮説の重複展開の影響による探索の非効率性が現れやすいものと考えられる.
著者
戸田 智基 河井 恒 津崎 実 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.291, pp.19-24, 2002-08-22
被引用文献数
2

素片選択に基づく波形接続型テキスト音声合成において自然性の高い合成音声を得るためには,知覚特性に一致したコストを用いることが重要である.本稿では知覚実験により求めた知覚スコアを用いることにより,コストの知覚特性に基づく評価を行う.その際に,コストと知覚スコア間の対応関係を明らかにするだけでなく,素片系列のコストを求めるために必要な各素片におけるコストを統合する関数についても検討する.実験結果から,合成音声全体における平均的な自然性劣化を表す平均コストは,局所的な自然性劣化を表す最大コストよりも知覚スコアとの対応が良いことを示す.また,平均的な自然性劣化と局所的な自然性劣化の両方を考慮するコストであるRMSコストを用いた際に,最も知覚スコアとの対応が良いことも示す.さらに,RMSコストによる素片選択に関しての検討を行うことにより,RMSコスト使用時には局所的な大きな自然性劣化を防ぐために,より短い単位の素片が多く用いられる傾向があることを示す.
著者
戸田 智基 河井 恒 津崎 実 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.603, pp.45-52, 2002-01-17
被引用文献数
2

本稿では, 日本語テキスト音声合成(TTS : Text-to-Speech)における新たな単位選択法を提案する.日本語では, 母音の無声化を除くとCV(C : 子音, V : 母音)とVから音節が構成されるため, 合成単位としてCV単位がよく用いられる.しかし, 波形接続型のTTSにおいてCV単位を用いて音声を合成すると, VからVへの接続によりしばしば不連続感が生じる.V-V接続を防ぐためにより長い単位(CV^*単位や可変長単位)がこれまでに提案されているが, V-V接続の問題はまだ解決されていない.そこで, V-V接続により生じる不連続感を低減する手法として, 音素単位とダイフォン単位に基づいた新たな単位選択法を提案する.提案法では, 音素境界における接続だけでなく, 母音中心における接続も考慮して単位選択が行われる.評価実験結果から, 提案法は音素単位に基づいた従来法と比較し, よりよい性能をもっことが明らかになった.
著者
翠 輝久 大竹 清敬 堀 智織 河井 恒 柏岡 秀紀 中村 哲
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.10, pp.1-6, 2011-07-14

ユーザがシステムから情報提示を受けながら候補を選択する意志決定型の音声対話システム構築と被験者実験の結果を報告する.これまで我々は,意志決定対話を部分観測マルコフ過程 (POMDP) としてモデル化し,ユーザの意志決定の良さを最大化するための対話戦略の最適化を行ってきた.本稿では,提案モデルを用いた対話制御手法と複数のベースライン手法とを被験者実験により評価した結果を報告し,ユーザシミュレーション環境で有効性を確認した提案手法が,実ユーザを対象とした場合でも有効であることを示す.This paper presents the results of the user evaluation of spoken decision support dialogue systems, which help users select from a set of alternatives. Thus far, we have modeled this decision support dialogue as a partially observable Markov decision process (POMDP), and optimized its dialogue strategy to maximize the value of the user's decision. In this paper, we present a comparative evaluation of the optimized dialogue strategy with several baseline strategies, and demonstrate that the optimized dialogue strategy that was effective in user simulation experiments works well in an evaluation by real users.