著者
齋藤 大輔 松浦 良 朝川 智 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.406, pp.189-194, 2007-12-13
被引用文献数
6

本報では,ケプストラムベクトルの方向成分が声道長の変化に対して強く依存していることを理論的,実験的に示す.さらにこの依存性がn次元のケプストラム空間における回転として表出されることを示す.音声認識の研究においては,年齢や性別の違いといった歪みを取り除くため,声道長正規化(VTLN)とよばれる技術が広く用いられている.VTLNはスペクトルドメインにおける周波数ウォーピングによって実現されるが,ケプストラムドメインでは線形変換c=Acとして表現する事ができる.しかしこの変換行列Aの幾何学的な性質に関しては今まで十分に議論されてこなかった.本研究ではn次元空間における幾何学を通して,これらの変換が全てのケプストラムベクトルをおよそ等しく回転させる事を示す.さらに分析再合成音を用いて,実際にケプスラムベクトルが回転している事を実験的に確認した.身長180cmの話者と身長120cmの話者を比較した場合,そのケプストラムベクトルがおよそ直交していることがわかった.本報の結果から従来の音声認識システムが子供の声のような特異音声を苦手とする一因を定量的に示す事ができた.
著者
川瀬 佑司 峯松 信明 齋藤 大輔 広瀬 啓吉 沈 涵平
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-103, no.27, pp.1-6, 2014-05-17

国際共通語である英語は、それぞれの国や地域の母語干渉により、多様な発音、所謂訛りが存在することが知られている。筆者らの先行研究では、様々な英語発音に対して話者を単位とした自動分類を検討している。ボトムアップ的な分類を行う場合、一般的には対象とする要素群に対して要素間距離行列が必要となる。先行研究では任意二話者間の発音距離の自動推定を行っている。この距離行列を可視化する場合には、多次元尺度法 (Multi-Dimensional Scaling, MDS) や樹形図を用いることが多い。本研究ではこれらに代わる、発音距離行列に対する新しい可視化手法を提案する。従来の可視化は、距離行列全体を表現することが狙いである。しかし可視化結果を呈示される特定の学習者にとってみれば、知りたい主情報は自分とそれ以外の話者の関係性である。そこで本研究では、特定話者とそれ以外の話者の発音距離に着目し、さらには年齢や性別といった情報も含め、英語発音の自己視点からの可視化を提案する。提案手法では従来手法と異なり、可視化結果に歪みが全く生じないことが保証されている。
著者
鎌田 圭 朝川 智 峯松 信明 牧野 武彦 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.73-78, 2007-07-19
被引用文献数
1

音声コミュニケーションは,音声の生成,収録,伝送,再生,聴取の何れの過程においても非言語的特徴が不可避的に混入するが,これを表現する次元をおよそ保有しない音響的普遍構造が提案されている.この構造的表象を用いて,発音矯正の必要度を学習者別に推定可能であることが実験的に示されている.本稿では,この推定方法が教育的に妥当であるかを,英語音声学を専門とする音声学者による学習者発音の母音図表記を通して検討する.また,この推定方法について,改善可能な点を示し,より妥当な推定方法を検討する.
著者
鈴木 雅之 黒岩 龍 印南 圭祐 小林 俊平 清水 信哉 峯松 信明 広瀬 啓吉
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J96-D, no.3, pp.644-654, 2013-03-01

日本語テキスト音声合成において,任意の入力テキストに対し正しいアクセントを推定することは,自然な合成音声を得るために不可欠である.日本語は,単語が文中で発声されると,アクセントが前後の文脈に応じて変化する,アクセント結合と呼ばれる現象が発生する.本研究では,この日本語のアクセント結合を統計的に自動推定する課題に取り組む.まず本研究の遂行に必要な,文発声時のアクセント情報がラベル付けされた文章データベースを作成した.ここでは6334文の日本語文セットを対象に,日本語東京方言話者の作業者一名が,アクセント句境界,文中の単語アクセント型のラベリングを行った.そしてこのデータベースを利用し,条件付き確率場を用いた日本語東京方言のアクセント句境界及び文中の単語アクセント型推定手法を提案する.アクセント句単位でアクセント結合自動推定の正答率を調べたところ,規則処理(87.48%)と比較して,提案手法(94.66%)はより高精度にアクセント結合を推定できることが示された.更に規則処理によるアクセント結合処理を用いた合成音声と,提案によるアクセント結合処理を用いた合成音声とを,聴取実験により比較したところ,提案手法は合成音声の自然性を有意に向上させられることが分かった.
著者
成澤 修一 峯松 信明 広瀬 啓吉 藤崎 博也
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.7, pp.2155-2168, 2002-07-15

藤崎らによる音声の基本周波数パターン($F_0$ パターン)生成過程のモデルは,少数のパラメータから実測の $F_0$ パターンにきわめて近いパターンを生成しうることが知られており,音声合成に広く用いられている.一方,実測の $F_0$ パターンからモデルのパラメータを抽出することは解析的には解けない逆問題であり,初期値を与え逐次近似を行う必要がある.この場合,高精度のパラメータを迅速に抽出するには適切な初期値の設定が不可欠であるが,従来はこれを人手によって行っていたため,大量の音声資料の自動的処理は困難であった.本論文では,実測の $F_0$ パターンからパラメータの初期値を自動的に決定し,さらにそれに基づいて高精度のパラメータ抽出を自動的に行う手法を提案する.この手法は,実測された $F_0$ パターンをいたるところで連続かつ微分可能な曲線によって近似するための処理,得られた曲線からアクセント指令とフレーズ指令のパラメータの初期値を決定するための処理,さらにそれらの初期値をもとに逐次近似によりパラメータの最適値を求める処理,の3段階の処理からなる.共通日本語の男性・女性話者各1名の朗読音声を対象とした実験の結果,男性の朗読音声について,以前に提案された手法では,パラメータ抽出の性能として,指令の再現率78%,精度67%であるのに対し,提案手法によればそれぞれ82%,80%であった.また,女性の朗読音声については,従来手法では再現率60%,精度51%であるのに対し,提案手法ではそれぞれ83%,72%であった.この結果から,本手法の有効性が実証された.
著者
渡辺 美知子 広瀬 啓吉 伝 康晴 峯松 信明
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.62, no.5, pp.370-378, 2006-05-01
被引用文献数
7

自発発話において,直前にフィラーのある,句や節などの主要構成素は,そうでない主要構成素に比べ,長い傾向がある。そのような傾向を聴き手が経験的に把握し,フィラーを,後続句の長さや内容の複雑さを予測する手掛かりとして用いているかどうかを,句境界のフィラー,「エート」について調べた。「エート」の後続句が指し示す対象を聴き手が同定するのにかかる時間は,「エート」がない場合と比べ,後続句が長い場合のみ短く,後続句が短く単純な場合は有意差がなかった。この結果から,句境界の「エート」は聴き手にとって,後続句の長さ,内容の複雑さを知る上での手掛かりとなっていることが示唆された。
著者
徳田恵一 峯松信明 戸田智基 額賀信尾 平井啓之
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.7, pp.1-6, 2014-01-24

情報処理研究会音声言語情報処理研究会 (SIG-SLP) 第 100 回記念シンポジウムにおいて,音声合成研究の流れを俯瞰し,今後の目標・応用や方法論を探ることを目的としたテーマセッションを実施する.本稿は,そこでの発表内容の概要を,登壇者がそれぞれ執筆したものである.
著者
チョウ イ 峯松 信明 齋藤 大輔
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.19, pp.1-6, 2015-11-25

論文では,データが限られた話者に対する音声合成の質の向上を目的とした,多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成モデルを提案する.提案モデルは,話者非依存のネットワーク (SIN) と話者依存のネットワーク (SDN) で構成されており,SIN は複数話者のデータで学習され,SDN はターゲット話者のデータで学習される.さらに,性別コードと話者コード,i-vector を導入することで,SIN 内部において,話者の識別性をより高めることが期待される.データ数が限られたデータベースを用いた音声合成実験により,提案法は,多層ニューラルネットワークと多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成と比較して,合成音声の品質の向上を確認することができた.さらに,提案した複数話者モデルに話者適応を導入可能であり,実験的に新話者に対する音声合成の自然性と話者性を向上することができた.
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
平野 宏子 顧 文涛 広瀬 啓吉 峯松 信明 河合 剛
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.333, pp.19-24, 2006-11-03

日本語学習者が自然な発音・イントネーションで話したいと願うとき,ピッチ・アクセント言語の日本語において,その自然性に主要に関わる基本周波数の適切な制御が重要になる.本研究では,母語話者と学習者(標準中国語話者)の基本周波数パターンを比較し,その特徴を分析する.その際,1)表層の音声に現れる基本周波数パターンの特徴を,F_0の局所的な上昇下降の形状や発話全体のレンジの変化の様相から述べ,2)音声合成分野に広く用いられている基本周波数生成過程モデルを,第二言語の韻律習得の分析に応用し,いくつかのパラメータから個々の特徴を分離して定量的に調べる.モデルによる分析からは以下のことが示された.1)基底周波数は学習者の方が高い,2)フレーズ指令の生起数が多く,形成される韻律句が短い,3)文節中にアクセント指令が多く生起し,文節がいくつかの韻律語に分解される,4)文(節)末で急激なF_0下降が生じ,局所的に負のアクセント指令が導入される.これらの特徴は,音節毎に声調型を持つ中国語音声の影響,第二言語発話の不慣れ,適切な韻律指導の不足に起因すると考えられる.
著者
峯松 信明 広瀬 啓吉 関口 真理子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.7, pp.2186-2196, 2002-07-15
被引用文献数
9

対話システムの高度化にともない,入力音声から単に言語情報(文字情報)を抽出するだけでなく,話者性や感情など,話者の静的および動的特徴を的確に把握しながら効率的に対話を遂行することを目的とした研究が行われるようになってきた.本論文では種々の話者特性の中でも「年齢」に焦点を当てる.特に高齢化社会を考慮し,音声の音響情報より高齢話者を特定する手法を提案する.本論文ではまず,高齢話者音声データベースに対して聴取実験を行い,「高齢者であることを意識した対応が必要である」と考えられる話者を特定した(主観的高齢者).先行研究より高齢者としての特徴がスペクトル情報に反映されるとの知見があるので,主観的高齢者の同定を話者認識技術を利用して行った.その結果,約91%の正答率が得られた.さらに,聴取実験の結果得られた「高齢者としての対応が必要である」と判断した理由について分析し,スペクトル情報以外の音響情報である韻律的特徴を実験的に検討した.その結果,話速とパワーの局所変動を考慮することで,同定率を約95%まで向上することができた.また,提案手法に基づいて,発話者に対する主観的年代の自動推定に関する分析を行ったのでその結果についても報告する.Recent advancement of spoken dialogue systems requires techniques not only torecognize users' utterances, but also to capture their static and dynamiccharacters, with which more efficient and fruitful dialogue between humans andmachines can be realized. In the current paper, research focus is placed uponspeakers' agedness as one of the static characters and a method of automaticallyidentifying elderly speakers only with their voices is proposed. Firstly inthis paper, a listening test was done for JNAS and S-JNAS databases wheresubjects were asked to estimate each speaker's agedness subjectively and judgewhether the subjects should take special care of their speaking styles when talking tothe speakers. Secondly, a series of experiments were carried out to automaticallyidentify the subjectively-defined elderly speakers. In the first experiment,GMM-based speaker recognition techniques were immediately used and 91 %accuracy was obtained. Through experimental examinations of various prosodicfeatures, speech rate and local power perturbation were added to the GMM-basedidentification in the second experiment. The performance was raised up to 95 %.Finally, a method was also devised to estimate speakers' agedness using theproposed techniques. A rather high correlation between the agedness estimated bythe method and that obtained by the subjective listening test indicates thehigh validity of the method.
著者
小林 俊平 清水 信哉 峯松 信明 広瀬 啓吉 平野 宏子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.471, pp.95-100, 2012-03-01
参考文献数
19

より自然な音声を出力する日本語テキスト音声合成システムを実現するためには,入力文中の各アクセント句のアクセント核位置を適切に推定する必要がある.筆者らはCRFを用いた統計的アクセント型予測モデルに,従来から広く用いられていたアクセント結合規則を素性として組み込むことで,大きな精度改善を実現してきた.しかし,数詞を含む句や外来語を含む句など,特殊なアクセント変化を起こす句に対しては,まだ十分な精度が出ていなかった.そこで本稿では,これらの句に対して規則処理を参考にすることで定義される素性を付加することで,精度改善を試みた.また,アクセント変形予測技術の一つの応用として,日本語教育支援について検討した.具体的には,任意の日本語テキストを対象とした活用語アクセント辞書の自動生成システムを作成した.
著者
ネットル ベンジャミン 広瀬 啓吉 峯松 信明
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.603, pp.53-60, 2002-01-17
参考文献数
9

波形接続型音声合成におけるユニットフージョンによるスペクトル平滑化について実験的検討を行った。基本となる合成手法はVCVとVV単位のTD-PSOLAであり、合成単位の接続部(V-V)での不連続性を、フージョンユニットを用いたスペクトル変形によって除去するものである。音声の品質のために正弦波モデルと全極モデルを併用したスペクトル加工を採用した。日本語音声データベースをVCVとVV単位に区切り、DP法に基づく手法により自動的にピッチマークを付与した。スペクトル変形を施すことにより品質向上する接続部が認められた。これがどのような接続部であるかは今後の検討課題である。
著者
峯松 信明 津田 圭一 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.726, pp.9-16, 2001-03-23
被引用文献数
3

周知のように,従来の音声情報処理においては「音声の生成過程では,韻律的特徴と分節的特徴は独立して制御される」との仮定の下でその処理体系が構築されてきた。しかし昨今の研究例に目を向けると,音声医学,音声科学,音声工学の分野において,F_0とスペクトルの依存性を仮定した方法論の有効性が報告されている。音声の分析に焦点を絞った場合,F_0とスペクトルの依存性は,フォルマント周波数をベースとした分析例が多い。しかし,音声工学の立場からは,フォルマント周波数によるスペクトル記述は必ずしも得策とは言えない。筆者らの一部は,既に日本語音声を対象としてF_0変化に起因するケプストラム係数変動を定量的に分析し,そのモデル化を行っている。本研究では,この分析方式をまず有声子音音声に拡張する。更に,無声子音についても前後の有声区間から求まる補間F_0との依存関係について分析する。その結果,有声子音においても母音同様のF_0依存性が観測された他,無声子音の一部においては,有声子音と同等のF_0依存性が観測された。本研究ではこれらの分析に基づいてケプストラム係数の変動予測モデルの構築を試み,更に,予測モデルの工学的利用について予備検討を行なったので報告する。
著者
峯松 信明 櫻庭 京子 西村 多寿子 喬 宇 朝川 智 鈴木 雅之 齋藤 大輔
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.1, pp.12-26, 2011-01-01

近年の計算機性能の飛躍的な向上により,大規模語彙を対象とした音声認識は実用段階を迎えている.音声合成においても話者性や発話スタイルを制御できる合成方式など,種々の応用場面を念頭においた技術開発が行われている.その一方で,音声工学研究の目的を「人間に匹敵するような」音声言語情報処理能力の計算機実装と考えた場合,人間と機械との間には,今なお,大きな溝があることも指摘されている.本研究ではまず,現在の音声認識・音声合成相当の情報処理を行う人間が現に存在した場合,その人間の挙動は,音声言語の獲得に困難を示す重度自閉症者の挙動と類似するであろうことを指摘する.その上で,(定型発達を遂げた)人間らしい音声情報処理の実現に向けて,現在の音声技術に欠けている基礎技術は何であるのかを幅広い視点から考え,欠損技術の一つとして「音声に含まれる言語的情報を,非言語的情報から音響的に分離して抽出する技術」を主張する.と同時に,その実現に向けて一つの技術的提案を行い,いくつかの実験結果を述べる.
著者
峯松 信明 片岡 嘉孝 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.100, pp.39-46, 1995-10-20
被引用文献数
23

本研究では講演調の話し言葉に対して,音響的/言語的,更には知覚的観点から分析を行なった。特に,講演調の話し言葉に対して人間が感じる「ポーズ(間,区切り)」が音響的(物理的)なポーズとどの程度対応がとれるのか,そして,知覚的ポーズの周辺にはどのような言語表現(間投詞,つなぎ語,終助詞)が頻出するのか,の2点に焦点を置いた分析を行なった。その結果,音響的ポーズと知覚的ポーズとの相関には発話速度が関与していることが示された。また,知覚的ポーズをほぼ確実に引き起こす言語表現として「え[?]」「え[?]と」「で」が観測された。なお本報告では,50年代より言語学者らによって行なわれてきた話し言葉に村する研究例のサーベイも行なっている。これらの研究例を考察することは工学的応用と言う観点から考えた場合においても,非常に有益なことである。Analysis of spoken language in lecture style was carried out from acoustic, linguistic and perceptual viewpoints. Especially, the correlation was investigated between pauses which human listeners perceive in lecture-style speech and those which were detected semi-automatically using some acoustic methods. Linguistic expressions(interjections and filled pauses) around the perceptual pauses were also analyzed. As a result, it was found that the correlation between the two types of pauses was influenced by speech rate and that "e[e]", "e[e]to" and "de" were observed as the linguistic expressions which caused perceptual pauses in quite high probability. And in this paper, some of the traditional researches for spoken language conducted not by engineers but by linguists were also surveyed. It is very beneficial to look into these researches in terms of technological application.
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。
著者
峯松 信明 志甫 淳 村上 隆夫 丸山 和孝 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.98, pp.9-12, 2005-05-20
被引用文献数
19

音声に不可避的に混入する静的な非言語的特徴を表現する次元を有しない, 音声の構造的表象が提案されている(音響的普遍構造)。音声事象を全て分布として記述し, 全ての二分布間距離を正規化相互相関として求め, 事象群全体を一つの構造として捉える。得られた構造はアフィン変換でモデル化される静的な非言語的特徴によって歪むことがない。これは言語学的には構造音韻論の物理実装, 認知心理学的には音声ゲシュタルトとして解釈できる物理表象である。本稿では, 異なる2つの発声が各々構造的に表象された場合の距離尺度, 即ち構造間距離尺度の導出を行なう。まずユークリッド空間に存在する2つのN点構造間距離を導出し, 次にその近似解について検討する。