著者
ネットル ベンジャミン 広瀬 啓吉 峯松 信明
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.603, pp.53-60, 2002-01-17
参考文献数
9

波形接続型音声合成におけるユニットフージョンによるスペクトル平滑化について実験的検討を行った。基本となる合成手法はVCVとVV単位のTD-PSOLAであり、合成単位の接続部(V-V)での不連続性を、フージョンユニットを用いたスペクトル変形によって除去するものである。音声の品質のために正弦波モデルと全極モデルを併用したスペクトル加工を採用した。日本語音声データベースをVCVとVV単位に区切り、DP法に基づく手法により自動的にピッチマークを付与した。スペクトル変形を施すことにより品質向上する接続部が認められた。これがどのような接続部であるかは今後の検討課題である。
著者
阿栄梛 林 良子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.109, no.451, pp.19-24, 2010-02-25

本研究では,モンゴル語・中国語を母語とする日本語学習者を対象に,シャドーイングと音読・リピーティングの発音練習による効果を検証した.本研究では,(1)日本語のシャドーイング練習時の音声は,音読・リピーティング時の音声とどのような違いがあるか.(2)日本語のシャドーイング練習の効果は,学習者の母語によって異なるのか.(3)日本語のシャドーイング練習によってどのような音声的特徴に効果が現れやすいのかについてモンゴル語および中国語を母語とする日本語学習者を対象に検討した.その結果,a.シャドーイングおよび音読・リピーティング練習ともに,日本語学習者の発話速度を向上させること,b.モンゴル語話者も中国語話者も,シャドーイング練習中にはアクセント型の正確率が上昇するが,学習者の母語により異なった傾向が見られること,c.超分節レベルであるアクセント型やイントネーションに効果が現れやすいことが分かった.
著者
安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.523, pp.43-48, 2000-12-15
被引用文献数
7

平成12年3月27日から、NHKニュース番組「ニュース7」で字幕放送が開始された。この字幕放送は、音声認識技術を利用して、リアルタイム字幕を試みた世界でも初めての例である。テレビニュース番組に対する字幕放送を実現するためには、リアルタイムで字幕原稿を制作する必要がある。日本語の場合には、仮名漢字変換などに時間がかかるため、アナウンサーの声に追従して字幕原稿をキーボード入力することは困難であり、いままで、我が国ではニュースの字幕放送は実現されていなかった。そこで、音声認識技術を利用することとした。本稿では、「ニュース7」字幕放送を実現するために開発したニュース音声認識システム、及び音声認識結果を人手で即座に修正するシステムについて解説する。
著者
趙 力 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.95, no.123, pp.9-16, 1995-06-23
被引用文献数
8

本稿では,中国語連続音声の認識と理解を目標とし,日本語連続音声認識システムSPOJUS-SYNOに基づいた中国語連続音声認識システムの構築について報告する。本システムのタスクとしては中国語ホテル予約システムに関するものであり、語彙数は190単語である。利用した日本語連続音声認識システム(SPOJUS-SYNO・X)はOne Pass DP法をベースにトップダウン型の構文解析法を統合したフレーム同期型の認識アルゴリズムを採用している。認識に用いるHMMは、60個の中国語音素単位に対応した60個の単一連続分布(全共分散行列使用)の離散継続時間制御HMM(DDCHMM)で、構文知識を表わしている文脈自由文法(CFG)は非終端記号数27、ワードクラス数(文法的に等価な終端記号の集合)53、書換規則数80からなっている。中国語ホテル予約タスクの認識対象53文についてのテストセットパープレキシティは26.1である。評価実験では、2名の話者が中国語ホテル予約タスクの認識対象53文について認識実験を行なった結果、平均68.9%の文認識率が得られた。また、O(n)DPによって適応化用文(50文)と評価用文(53文)でそれぞれ初期モデルと適応化したモデルを評価した。これらの結果から、この中国語音声認識システムの有効性を確認した。
著者
横山 徹 三木 信弘 小川 吉彦 正木 信夫 島田 育廣 藤木 一郎 中村 祐二
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.557, pp.57-64, 1999-01-22
被引用文献数
2

我々は, 声道の3次元形状を考慮した音声生成モデルの構築を目的として, 断層画像群を基に3次元声道形状のワイヤフレームモデルを構成する方法を提案した.そして声道形状を1次元縦続音響管モデルに近似することで声道伝達特性を推定した.しかし上記の変換の過程には多くの不確定な要素が含まれており, これらが伝達特性にどのように影響するかについての検討は成されていない.本稿では, その中でも特に音響的に影響すると考えられる要素として, 音波伝搬経路のずれ, およびセクション数の違い, および口唇形状を考慮することによって, 主要フォルマント周波数にどのような影響が出るかについて検討を行う.
著者
峯松 信明 津田 圭一 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.726, pp.9-16, 2001-03-23
被引用文献数
3

周知のように,従来の音声情報処理においては「音声の生成過程では,韻律的特徴と分節的特徴は独立して制御される」との仮定の下でその処理体系が構築されてきた。しかし昨今の研究例に目を向けると,音声医学,音声科学,音声工学の分野において,F_0とスペクトルの依存性を仮定した方法論の有効性が報告されている。音声の分析に焦点を絞った場合,F_0とスペクトルの依存性は,フォルマント周波数をベースとした分析例が多い。しかし,音声工学の立場からは,フォルマント周波数によるスペクトル記述は必ずしも得策とは言えない。筆者らの一部は,既に日本語音声を対象としてF_0変化に起因するケプストラム係数変動を定量的に分析し,そのモデル化を行っている。本研究では,この分析方式をまず有声子音音声に拡張する。更に,無声子音についても前後の有声区間から求まる補間F_0との依存関係について分析する。その結果,有声子音においても母音同様のF_0依存性が観測された他,無声子音の一部においては,有声子音と同等のF_0依存性が観測された。本研究ではこれらの分析に基づいてケプストラム係数の変動予測モデルの構築を試み,更に,予測モデルの工学的利用について予備検討を行なったので報告する。
著者
小黒 玲 近藤 法夫 尾関 和彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.39, pp.61-67, 1996-05-16
被引用文献数
4

最近の音声認識においては、HMMによって得られる尤度に基づいて仮説のスコアを定義することが多い。しかし、連続音声中の単語を検出する場合のように、仮説に対応する音声区間が仮説ごとに異なる場合には、尤度をそのままスコアとすることには問題がある。本研究では、尤度そのものをスコアとするスコア関数と、尤度を何らかの方法で正規化することによって得られるいくつかのスコア関数の特性を比較した。比較は、真の単語/文節終端付近でのスコアの振舞いと、そこでの単語/文節認識率の二つの観点から行なった。その結果、エルゴディックHMMを用いて正規化を行なうスコア関数が、総合的に見て最も好ましい特性を持つことが明らかになった。
著者
北岡 教英 押川 洋徳 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.496, pp.31-36, 2005-12-15
被引用文献数
3

本稿では, 高頻度単語と短い単語(基本単語)を併用した音声認識を用いた組織名入力インタフェースを提案する.これは, まず音声で組織名を入力し, 音声認識の結果得られた複数の単語・基本単語候補から, ペンタッチで選択, 入力するマルチモーダルインタフェースである.組織名といった語彙サイズが大きく, 常に新しい組織名が生み出されるため, すべてを登録することが難しく, また音声認識が難しいタスクに対し, 単語認識と連続基本単語認識を併用するもので, 認識対象のカバー率と認識性能, 入力効率の両方の向上を図った.そして, その認識結果から単語・基本単語系列候補, 基本単語候補をタッチパネルに表示し, ペンタッチにより簡単に選択して入力が可能な組織名入力インタフェースを考案した.この高頻度単語と基本単語を併用した音声認識をオフラインの認識実験により評価したところ, それぞれ単独での音声認識結果より良い結果が得られた.さらにこの認識結果に基づいてインタフェースを用いた場合の入力可能な割合をシミュレーションすると, 約92%で入力が可能となることが分かった.また, このインタフェースを実装してオンラインで被験者実験を行ったところ, 音声認識性能の低下で1回の発声では83.3%の入力可能率となったが, 2回まで音声入力を許すことで93.3%となった.
著者
本間 真一 松井 淳 佐藤 庄衛 小早川 健 尾上 和穂 今井 亨 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.160, pp.49-54, 2002-06-21
被引用文献数
11

NHKは,音声認識技術を利用したニュース番組の生字幕放送をすでに実現しているが,スポーツなどの生放送番組については,背景雑音や発話スタイル等の問題があるため,直接その番組音声に対してリアルタイムで音声認識を行うことは困難である.そこで我々は,「リスピーカー(re-speaker)」と呼ばれる話者を起用し,この話者が番組音声を聞きながらその内容を言い直し,その声を音声認識することにより生放送番組の字幕放送を実現した.本稿では,ソルトレークシティーオリンピックの生中継において実際に使用された生字幕放送ための音声認識システムと,新たに構築した言語モデルおよび音響モデルの概要を説明する.また,音声認識率やテストセットパープレキシティーなどをもとに,リスピーカーによる言い直しの効果について報告する.
著者
竹内 康人
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.331, pp.19-22, 2003-09-22

ささやき声の安定した収録には多少の工夫を要する。それは呼気の風圧が通常の声よりはるかに大きい、つまり息の量を消費しつつ行われるからである。結果として口に接近したマイクロホンには何らかの風防が必要とる。本研究においては風圧下ないし呼気の脈動する流れの中で広帯域信号採取するために従来概念の発泡体の覆いなどではなく平滑な表面の弱加圧薄膜閉鎖ソナドームを用いて良い結果を得たので報告する。これは本研究会で同時に発表するもう1つの演題に対する必須な支援技術となっている。
著者
倪 晋富 河井 恒 津崎 実
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.263, pp.19-24, 2003-08-14

波形素片接続型音声合成の音質を向上させようとすると,大規模な音声コーパスが必要となり,結果的に音声収録に数ヶ月〜数年という長期間を要する。録音セッションが異なると録音系の特性が変化する可能性があり,その結果多少とも声質が変化する。本稿では,1名の男性話者が2年間に677回発声した同一の日本語文の音声データを試料として用い,長時間平均パワースペクトルの等価に関する実験を行った結果について報告する。まず,フレーム長の設定など,長時間平均パワースペクトル推定の最適条件について検討する。さらに,4種類のフィルタ,すなわちLPC係数を介して設計されたIIRフィルタ,MLSAフィルタ,ケプストラムにもとづく平滑化を伴うFIR,メルケプストラムにもとづく平滑化を伴うFIR,を等価フィルタとして取り上げ,それぞれの最適な設計条件を検討する。各フィルタの等価効果の比較は,等価対象音声の音響的特微量のガウス分布に関する尤度にもとづいて行う。予備的な主観評価実験の結果,提案手法が録音系周波数特性の等価に有効であり,かつ音質劣化を生じないことが示唆された。
著者
河井 恒
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.97, pp.19-24, 2005-05-19
被引用文献数
4

筆者らが100時間超の大規模音声コーパスを用いる波形素片接続型音声合成システムを開発した過程で得た知見にもとづいて、(1)音声コーパス規模と合成音声の音質の関係、(2)コーパス設計手法とその効果、(3)音声コーパス作成手順と若干のノウハウ、(4)音素自動セグメンテーションの精度と有効性、(5)声質変動、に関して述べる。
著者
西澤 信行 河井 恒
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.572, pp.67-72, 2006-01-20

最良優先探索に基づく素片選択処理について検討を行う. 多くの素片接続型音声合成システムでは, 動的計画法に基づく素片選択処理が行われているが, それ以外の探索手法として, ヒューリスティックを基づく手法が考えられる. 本研究ではA^*アルゴリズムに着目し, 許容的でないヒューリスティック関数を用いた場合も考慮した, 素片選択アルゴリズムを導入する. 素片選択処理において, 複雑な処理を要するヒューリスティック関数の導入は現実的ではないことから, 本研究では, 平均コストを用いた単純なヒューリスティック関数を用いることとした. 実際の素片選択処理では, 可能な処理時間が限られているが, これに対応する実験として, 従来法であるビームサーチを併用した動的計画法に基づく探索と, 最良優先探索のそれぞれについて, 接続コスト計算回数が同一条件となるような素片選択実験を行い, それら結果をコスト上で比較した. 実験結果では, 従来手法と比較し, 最良優先探索により良い結果を得ることができなかったが, 素片選択への最良優先探索適用は, 同一仮説の重複展開の影響による探索の非効率性が現れやすいものと考えられる.
著者
木本 雅也 並木 寿枝 清水 忠昭 井須 尚紀 菅田 一博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.270, pp.31-38, 2001-08-23

小規模な応用に向けたVCV規則音声合成方式において, 素片選択の為の2つの基準, i)音韻環境類似度とii)LSP距離による素片の接続歪みについて実験的に検討した.前者を採用した方式は, 後者より各素片に音韻環境情報を余分に付加しておかなければならない.後者を採用した場合, 前者より素片選択処理に時間を要する.VCV音素単位を選択するときに考慮する音韻環境の長さを短く出来れば, 音素片辞書の記憶容量を小さく出来る.筆者らは, 音質を保ちながら音韻環境の長さをどこまで短く出来るかを実験で調べた.実験の結果, 先行2音韻・後続1音韻にまで削減して素片選択しても, 先行5音韻・後続5音韻で素片選択した音声とほぼ同品質の音声を合成出来ることが判った.
著者
戸田 智基 河井 恒 津崎 実 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.291, pp.19-24, 2002-08-22
被引用文献数
2

素片選択に基づく波形接続型テキスト音声合成において自然性の高い合成音声を得るためには,知覚特性に一致したコストを用いることが重要である.本稿では知覚実験により求めた知覚スコアを用いることにより,コストの知覚特性に基づく評価を行う.その際に,コストと知覚スコア間の対応関係を明らかにするだけでなく,素片系列のコストを求めるために必要な各素片におけるコストを統合する関数についても検討する.実験結果から,合成音声全体における平均的な自然性劣化を表す平均コストは,局所的な自然性劣化を表す最大コストよりも知覚スコアとの対応が良いことを示す.また,平均的な自然性劣化と局所的な自然性劣化の両方を考慮するコストであるRMSコストを用いた際に,最も知覚スコアとの対応が良いことも示す.さらに,RMSコストによる素片選択に関しての検討を行うことにより,RMSコスト使用時には局所的な大きな自然性劣化を防ぐために,より短い単位の素片が多く用いられる傾向があることを示す.
著者
戸田 智基 河井 恒 津崎 実 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.603, pp.45-52, 2002-01-17
被引用文献数
2

本稿では, 日本語テキスト音声合成(TTS : Text-to-Speech)における新たな単位選択法を提案する.日本語では, 母音の無声化を除くとCV(C : 子音, V : 母音)とVから音節が構成されるため, 合成単位としてCV単位がよく用いられる.しかし, 波形接続型のTTSにおいてCV単位を用いて音声を合成すると, VからVへの接続によりしばしば不連続感が生じる.V-V接続を防ぐためにより長い単位(CV^*単位や可変長単位)がこれまでに提案されているが, V-V接続の問題はまだ解決されていない.そこで, V-V接続により生じる不連続感を低減する手法として, 音素単位とダイフォン単位に基づいた新たな単位選択法を提案する.提案法では, 音素境界における接続だけでなく, 母音中心における接続も考慮して単位選択が行われる.評価実験結果から, 提案法は音素単位に基づいた従来法と比較し, よりよい性能をもっことが明らかになった.
著者
村上 英典
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.610, pp.17-24, 1999-02-18

"楽曲を聴いて評価する"過程をニューラルネットワークで再現して、"楽曲のイメージ"に与える音楽要素の影響を結合値によって示そうと試みた。階層型ネットワークを採用し、バックプロパケーションアルゴリズムで学習をおこなう。入力信号は、Standard MIDI Fileを元に作成した楽曲情報、教師信号は、"簡単なイメージ"に対しての5段階評価とした。楽曲中の音楽要素からの興奮と抑制の作用によってイメージは発生すると仮定し、その作用に反応するニューロンが、音楽要素として考えられるものに対応して中間層を構成する。楽曲の評価を行い学習して、その結果得られた結合について考察する。
著者
金寺 登 荒井 隆行 岡田 賢治 浅井 健司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.155, pp.67-72, 2003-06-20

音声特微量の時間軌跡をフーリェ変換したものは変調スペクトルと呼ばれ,音声の認識には特定の変調スペクトルが重要であることが知られている.本報告ではよ音声認識にとって変調スペクトルの各成分がどの程度重要であるかを示す貢献度に応じて変調スペクトルを強調した音声認識特微量を提案する.自動音声認識実験の結果,提案した特微量は,雑音環境下において音声認識性能が約5%改善されることを確認した.
著者
宮崎 健 水町 光徳 二矢田 勝行
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.265, pp.47-52, 2008-10-16

我々の目的は,高齢者音声の様々な聴覚的特徴に対応する音響的特徴を体系的に明らかにする事である.本稿では,その前段階として高齢者音声の聴覚的特徴を体系的に示すために,高齢者音声の特徴を形容する語を選定した.最初に辞書等の情報を基に声の特徴を表す様々な語301語を列挙した後,アンケートと聴取実験を実施し,その結果を統計的手法により解析する事で,高齢者音声の特徴形容語を男性の場合10語,女性の場合11語選定した.次に考察として,高齢者音声らしさを端的に表す聴覚的特徴を,聴取実験結果に基づく因子分析及び重回帰分析を実施して調べたところ,「しゃがれ声(雑音系)」,「不明瞭さ(減り張りの無さ)」,「発話の遅さ」の3因子が男女共に抽出され,「しゃがれ声(雑音系)」が高齢者音声の知覚に最も関係が深いという結果を得た.
著者
迫江 博昭
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.530, pp.43-48, 2002-12-13

私のDPマッチング研究の歴史を振り返ってみる.学生時代のDPとの出会い,1968年のDPマッチングの着想,連続単語認識への努力,実用機、DP-100開発での経験を述べる.あわせて最近の研究として,2次元、DPマッチングへの拡張,筆順・続け書きフリーフリーオンライン文字認識への適用等を紹介する.