著者
渡辺 美知子 広瀬 啓吉 伝 康晴 峯松 信明
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.62, no.5, pp.370-378, 2006-05-01
被引用文献数
7

自発発話において,直前にフィラーのある,句や節などの主要構成素は,そうでない主要構成素に比べ,長い傾向がある。そのような傾向を聴き手が経験的に把握し,フィラーを,後続句の長さや内容の複雑さを予測する手掛かりとして用いているかどうかを,句境界のフィラー,「エート」について調べた。「エート」の後続句が指し示す対象を聴き手が同定するのにかかる時間は,「エート」がない場合と比べ,後続句が長い場合のみ短く,後続句が短く単純な場合は有意差がなかった。この結果から,句境界の「エート」は聴き手にとって,後続句の長さ,内容の複雑さを知る上での手掛かりとなっていることが示唆された。
著者
ヤーッコラ伊勢井 敏子 広瀬 啓吉 中 貴俊
出版者
中部大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2009

本研究は,フォルマント数値を用いて空間スペースにおける母音位置の三次元可視化(3軸上にF1~F3,F1~F2+F4を使う)を実現するものである.研究者が言語内および言語間の母音距離を表示できること,さらに,外国語学習者がユーザーフレンドリーなツールとして母音学習に役立てるために開発することを目的とする.全言語の母音表示を可能とするものである.本年度の研究成果として,研究者が未知の母音音素(各言語においてフォルマント母音図で位置が決まらない母音音素)について定量的にフォルマントの計測をし,位置を決め,更にその位置から伝統的な母音図を応用予測して適切な母音を決定できるようにするため,IPA母音すべてを任意に選択できる機能を追加した.また,学習者が英語モデル母音音素を何度でも聞こえるよう,母音をクリックするだけで音声が聞こえるように改善した.また,モデル音素を静的に置き,母音フォルマントを基本に学習者の音声が動的に動くシステム作りのベースを開始した.実験として日本語学習者の英語母音習得(特に短母音)の程度を英語母語話者と比較した.3次元フォルマント母音図とフォルマントの単純グラフを比較表示すると,前者の方が後者より圧倒的に視覚的効果があるだけでなく,母音間の距離感がより明瞭に分かることを実証した.本研究は今後音声認識技術を取り込めば全言語対応の母音学習ツールとしてより効果が見込め,これまでの研究成果発表の経験から,研究者にも学習者にも需要が高まるであろうことが十分予見できる.なお,本研究のベースとなった3次元可視化システムの応用性について,英語の筆記体を取り上げた.筆記体は現状の英語教育では看過されている.実態調査を行ったが,多くの大学生が読めないし書けないけれども,読みたいし書きたいという要望が多かった.更に,習得により将来何らかの利益があると考える学生が多かった.アルファベット筆記体を英語学習者に習得させることには意義がある事を実態調査が示した.即ち,アルファベット筆記体を3次元空間スペースで認知学習させる重要性も高まったと見てよいだろう.
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
平野 宏子 顧 文涛 広瀬 啓吉 峯松 信明 河合 剛
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.333, pp.19-24, 2006-11-03

日本語学習者が自然な発音・イントネーションで話したいと願うとき,ピッチ・アクセント言語の日本語において,その自然性に主要に関わる基本周波数の適切な制御が重要になる.本研究では,母語話者と学習者(標準中国語話者)の基本周波数パターンを比較し,その特徴を分析する.その際,1)表層の音声に現れる基本周波数パターンの特徴を,F_0の局所的な上昇下降の形状や発話全体のレンジの変化の様相から述べ,2)音声合成分野に広く用いられている基本周波数生成過程モデルを,第二言語の韻律習得の分析に応用し,いくつかのパラメータから個々の特徴を分離して定量的に調べる.モデルによる分析からは以下のことが示された.1)基底周波数は学習者の方が高い,2)フレーズ指令の生起数が多く,形成される韻律句が短い,3)文節中にアクセント指令が多く生起し,文節がいくつかの韻律語に分解される,4)文(節)末で急激なF_0下降が生じ,局所的に負のアクセント指令が導入される.これらの特徴は,音節毎に声調型を持つ中国語音声の影響,第二言語発話の不慣れ,適切な韻律指導の不足に起因すると考えられる.
著者
峯松 信明 広瀬 啓吉 関口 真理子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.7, pp.2186-2196, 2002-07-15
被引用文献数
9

対話システムの高度化にともない,入力音声から単に言語情報(文字情報)を抽出するだけでなく,話者性や感情など,話者の静的および動的特徴を的確に把握しながら効率的に対話を遂行することを目的とした研究が行われるようになってきた.本論文では種々の話者特性の中でも「年齢」に焦点を当てる.特に高齢化社会を考慮し,音声の音響情報より高齢話者を特定する手法を提案する.本論文ではまず,高齢話者音声データベースに対して聴取実験を行い,「高齢者であることを意識した対応が必要である」と考えられる話者を特定した(主観的高齢者).先行研究より高齢者としての特徴がスペクトル情報に反映されるとの知見があるので,主観的高齢者の同定を話者認識技術を利用して行った.その結果,約91%の正答率が得られた.さらに,聴取実験の結果得られた「高齢者としての対応が必要である」と判断した理由について分析し,スペクトル情報以外の音響情報である韻律的特徴を実験的に検討した.その結果,話速とパワーの局所変動を考慮することで,同定率を約95%まで向上することができた.また,提案手法に基づいて,発話者に対する主観的年代の自動推定に関する分析を行ったのでその結果についても報告する.Recent advancement of spoken dialogue systems requires techniques not only torecognize users' utterances, but also to capture their static and dynamiccharacters, with which more efficient and fruitful dialogue between humans andmachines can be realized. In the current paper, research focus is placed uponspeakers' agedness as one of the static characters and a method of automaticallyidentifying elderly speakers only with their voices is proposed. Firstly inthis paper, a listening test was done for JNAS and S-JNAS databases wheresubjects were asked to estimate each speaker's agedness subjectively and judgewhether the subjects should take special care of their speaking styles when talking tothe speakers. Secondly, a series of experiments were carried out to automaticallyidentify the subjectively-defined elderly speakers. In the first experiment,GMM-based speaker recognition techniques were immediately used and 91 %accuracy was obtained. Through experimental examinations of various prosodicfeatures, speech rate and local power perturbation were added to the GMM-basedidentification in the second experiment. The performance was raised up to 95 %.Finally, a method was also devised to estimate speakers' agedness using theproposed techniques. A rather high correlation between the agedness estimated bythe method and that obtained by the subjective listening test indicates thehigh validity of the method.
著者
小林 俊平 清水 信哉 峯松 信明 広瀬 啓吉 平野 宏子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.471, pp.95-100, 2012-03-01
参考文献数
19

より自然な音声を出力する日本語テキスト音声合成システムを実現するためには,入力文中の各アクセント句のアクセント核位置を適切に推定する必要がある.筆者らはCRFを用いた統計的アクセント型予測モデルに,従来から広く用いられていたアクセント結合規則を素性として組み込むことで,大きな精度改善を実現してきた.しかし,数詞を含む句や外来語を含む句など,特殊なアクセント変化を起こす句に対しては,まだ十分な精度が出ていなかった.そこで本稿では,これらの句に対して規則処理を参考にすることで定義される素性を付加することで,精度改善を試みた.また,アクセント変形予測技術の一つの応用として,日本語教育支援について検討した.具体的には,任意の日本語テキストを対象とした活用語アクセント辞書の自動生成システムを作成した.
著者
ネットル ベンジャミン 広瀬 啓吉 峯松 信明
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.603, pp.53-60, 2002-01-17
参考文献数
9

波形接続型音声合成におけるユニットフージョンによるスペクトル平滑化について実験的検討を行った。基本となる合成手法はVCVとVV単位のTD-PSOLAであり、合成単位の接続部(V-V)での不連続性を、フージョンユニットを用いたスペクトル変形によって除去するものである。音声の品質のために正弦波モデルと全極モデルを併用したスペクトル加工を採用した。日本語音声データベースをVCVとVV単位に区切り、DP法に基づく手法により自動的にピッチマークを付与した。スペクトル変形を施すことにより品質向上する接続部が認められた。これがどのような接続部であるかは今後の検討課題である。
著者
峯松 信明 津田 圭一 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.726, pp.9-16, 2001-03-23
被引用文献数
3

周知のように,従来の音声情報処理においては「音声の生成過程では,韻律的特徴と分節的特徴は独立して制御される」との仮定の下でその処理体系が構築されてきた。しかし昨今の研究例に目を向けると,音声医学,音声科学,音声工学の分野において,F_0とスペクトルの依存性を仮定した方法論の有効性が報告されている。音声の分析に焦点を絞った場合,F_0とスペクトルの依存性は,フォルマント周波数をベースとした分析例が多い。しかし,音声工学の立場からは,フォルマント周波数によるスペクトル記述は必ずしも得策とは言えない。筆者らの一部は,既に日本語音声を対象としてF_0変化に起因するケプストラム係数変動を定量的に分析し,そのモデル化を行っている。本研究では,この分析方式をまず有声子音音声に拡張する。更に,無声子音についても前後の有声区間から求まる補間F_0との依存関係について分析する。その結果,有声子音においても母音同様のF_0依存性が観測された他,無声子音の一部においては,有声子音と同等のF_0依存性が観測された。本研究ではこれらの分析に基づいてケプストラム係数の変動予測モデルの構築を試み,更に,予測モデルの工学的利用について予備検討を行なったので報告する。
著者
広瀬 啓吉 SHAIKH Mostata Al Masum SHAIKH Mostafa Al Masum
出版者
東京大学
雑誌
特別研究員奨励費
巻号頁・発行日
2008

昨年度、文の情動の程度を数値として表し、そこに含まれる感情の指標を抽出することを進めた。本年度は、その手法を高度化するとともに、得られる指標を合成音声に反映させることを中心に研究を進め、下記成果を達成した。1.ニュース文について、動詞に着目して各句の肯定/否定の程度を評点として数値化した上で、順接、逆節といった句間の関係から、文全体の肯定/否定の程度を評点として与える手法を開発した。評点を用いて、英語音声合成フリーウェアのMARY音声合成システムの韻律を制御することを行った。お祭りのニュースなど、文内容が肯定的な場合は基本周波数/発話速度を上げ、事故のような、否定的な場合は、下げることを基本とする制御を行うことにより、文内容にふさわしい合成音声を得た。2.認知モデルの立場から、喜び、悲しみなどの感情を、肯定/否定、興奮/抑制といった軸によって定式化し、文内容に含まれる感性情報を抽出する手法を開発した。肯定/否定、興奮/抑制の値によりMARY音声合成システムの韻律を制御することを行い、合成音声の聴取実験により抽出した感情が適切に反映されることを確認した。3.音声からそこに含まれる情動/感性を抽出する手法について、音響部分の構築として、スペクトルの周波数と時間方向の変化の特徴と韻律的特徴を用い、Support Vector Machine等による判別を行うことで、定型文に限定されているが、肯定と否定の情動の判別率90%を達成した。4.人間が生活する際に発生する種々の音から、人間の活動を推定する手法(Life Logging)の開発を進めた。音声認識で使われているMFCCを特徴量としたHMMを用いることで良好な音認識が可能なことを示した。
著者
広瀬 啓吉
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.38, no.11, pp.984-991, 1997-11-15
被引用文献数
7
著者
広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.520, pp.53-56, 2003-12-12

韻律は、文字言語にはない音声言語特有の特徴であり、人間のコミュニケーションにおいては、言語情報はもちろん、意図、態度、感情といったパラ言語情報、非言語情報の伝達に重要な役割を果たしている。しかしながら、この重要性にもかかわらず、特に工学的見地からは、研究の焦点は主として音声の音韻に置かれてきた。音声言語情報処理研究の今後の発展は、韻律の明確な定式化を行った上で、それに立脚して進めることによって初めて可能になると考えられる。このような観点から、韻律に関連した研究を進めているわが国の主要な研究者の緊密な協力により、韻律の基礎から応用までを統合して発展させ、音声言語情報処理の高度化に資することを目的とした文部科学省特定領域研究が2000年10月からスタートした。総括班を含めた8班の計画研究班体制で4年間の研究を進めた結果、韻律のモデル化、韻律の多様性の分析、韻律コーパスの作成、韻律の観点からの音声合成・音声認識の性能向上、韻律を利用した音声対話システムの開発、医療福祉技術の向上等について多くの成果を達成した。本研究は2003年度が最終年度であるが、それによって定着した韻律研究の流れは今後も継続し、真に使いやすい音声言語マン・マシン・コミュニケーションの実現に大きく寄与すると期待される。
著者
河合 剛 石田 朗 広瀬 啓吉
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.57, no.9, pp.569-580, 2001-09-01
被引用文献数
18

教師が学習者に正しい発音の概要を指導した後, コンピュータが発音の反復練習を促し, 発音の良否を音ごとにスペクトル面から判断し, 発音誤りを特定し, 直し方を分かり易く指導する手法を提案する。2言語の音響モデルを用いた音声認識により話者性を取り除く。母語話者向けの音声認識システム用として学習された音響モデルを使えるので教育システムを容易に開発できる。音の挿入誤りの検出, 音の置換・挿入・脱落誤りの検出, 発音練習の難易度調整の三つの実装例, 並びに日本語話者による英語学習と英語話者による日本語学習の実験を通じて, 発音学習の自動化の有効性や要素技術の言語独立性と可搬性を明らかにする。
著者
峯松 信明 志甫 淳 村上 隆夫 丸山 和孝 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.98, pp.9-12, 2005-05-20
被引用文献数
19

音声に不可避的に混入する静的な非言語的特徴を表現する次元を有しない, 音声の構造的表象が提案されている(音響的普遍構造)。音声事象を全て分布として記述し, 全ての二分布間距離を正規化相互相関として求め, 事象群全体を一つの構造として捉える。得られた構造はアフィン変換でモデル化される静的な非言語的特徴によって歪むことがない。これは言語学的には構造音韻論の物理実装, 認知心理学的には音声ゲシュタルトとして解釈できる物理表象である。本稿では, 異なる2つの発声が各々構造的に表象された場合の距離尺度, 即ち構造間距離尺度の導出を行なう。まずユークリッド空間に存在する2つのN点構造間距離を導出し, 次にその近似解について検討する。