著者
中嶋 秀治 永田 昌明 浅野 久子 阿部 匡伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.3, pp.480-488, 2005-03-01
被引用文献数
1

音声合成において合成音を作るためには, 未登録語であってもそのアクセント型(アクセントの位置の情報)が必要となる.本論文では, Support Vector Machine (SVM)を使って単語の読みから未登録語のアクセント型を推定する三つの方法を提案し, 性能を比較する.第1の方法では, 未登録語の読みを構成する各モーラのトーンの高低をSVMを使って推定し, 得られたトーン変化の中で高いトーンから低いトーンへ下降する場所を探して, アクセント型を判定する.第2の方法では, 単語の長さごとに用意されたSVMを使って, 同じアクセント型をもつ単語の集合に未登録語を分類することによってアクセント型を判定する.第3の方法は, 第2の方法の変形版で, 第2の方法とは異なる方法で単語の読みとアクセント型を表現する.また, 単語の長さによらない単一のSVMを使う.未登録の日本人の姓名を対象にしたアクセント型の推定実験を行ったところ, 第2と第3の手法において決定木の精度を上回り, 最高精度で姓では86.1%, 名では96.0%という結果が得られた.また, 実際のWebのニュース記事に現れた未登録語を対象にした実験でも決定木を上回り, 姓では91%, 名では86%という高い精度が得られ, 本手法の有効性が確認された.
著者
中嶋 秀治 山本 博史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.11, pp.2681-2688, 2001-11-15
参考文献数
15
被引用文献数
2

自然な話し言葉での対話においては,1回の発話(または発声)で複数の文が話されることがしばしば起こる.音声認識では,1回の発話を単位として処理が行われるが,複数の文を含んだ発話をそのまま1つの単位にして理解や翻訳や要約などの言語処理を行うことは困難であり,音声認識の後か言語処理の前に発話を文などへ分割することが必要となる.このため,本稿では通常の単語と同様に文境界としての句点を音声認識することによって複数の文が含まれる発話を各文に分割する手法を提案する.評価実験の結果,発話から文への分割性能の点では,最高で再現率94%適合率100%という性能が得られた.また,言語モデルに句点を含むか否かの違いによる句点以外の単語認識率の劣化はないという結果が得られ,本手法の有効性が確認された.In spontaneous dialogs, there are utterances containing several sentences.Although speech recognizers process utterances one by one,language processing such as understanding, translation or summarizationneeds to split utterances into sentences.This paper presents utterance splitting by recognizingperiods, i.e., sentence boundaries, as well as usual words.We evaluate the performance of the model in terms of splitting and word (except for periods) accuracy. Experimental results show high recall/precision rates of splitting (the highest scores are 94%/100%) and no reduction of other word accuracy, proving the applicability of the proposed method.
著者
中嶋 秀治 水野 秀之 吉岡 理 高橋 敏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.365, pp.173-178, 2011-12-12

表現豊かな音声において多様性を示す句末音調ラベルをテキストから予測する方法について述べる.本方法では,これまでの読み上げ口調の音声合成の言語解析の出力結果である単語の情報と,アクセント句およびイントネーション句の境界情報を用いる.そして,表現豊かな音声が発せられる場面,および,話者に依存したモデルを構築する.商品宣伝,電話応対の各場面のデータを用いて,句末音調ラベル予測評価実験を行なったところ,数個の特徴量を用いる提案法が,多量の特徴量に基づく従来法に比べて同等以上の一致率(Cohen's kappa)を得ることを確認した.