文献一覧: 中川聖一 (著者)

4 0 0 0 音声対話システムの構成法とユーザ発話の関係

著者: 中川聖一山本誠治
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日: vol.79, no.12, pp.2139-2145, 1996-12-25
被引用文献数: 9

本論文では,対話方法と被験者の違いによる振舞いや主観の違いの検討を行うために,"Wizard of Oz法"でインプリメントしたシステムを用いて評価実験を行った."Wizard of Oz法"とは,システムに精通した人(ウィザード)がシステムの代わりに処理を行うことによって,あたかもシステムが存在しているかのように見せかける実験方法である.評価実験で用いたタスクは,"富士五湖周辺の宿泊施設案内"で,対話方法としてはシステム主導型とユーザ主導型の二つを用意した.また,被験者として情報工学系の学生と工学系でない一般の女性を選び,合計16人で実験を行った.評価実験で得られた対話データをもとにユーザの平均発話数,1発話当りのユーザのシステム占有時間,聞き直し,間投詞,言い直し,単語カバー率について詳しく検討した.その結果,ユーザの平均発話数はシステム主導型の方が多くなるが,ユーザのシステム占有時間はユーザ主導型の方が長くなることわかった.また,間投詞,言い直しはユーザ主導型の方が多く出現することわかった.更に,システム主導による入力の方がユーザ主導に比べて使用される単語にかなりの制限が加えられることが確認できた.

https://ci.nii.ac.jp/naid/110003227684

3 0 0 0 音声対話文における助詞落ち・倒置の分析と解析手法

著者: 山本幹雄小林聡中川聖一
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.33, no.11, pp.1322-1330, 1992-11-15
参考文献数: 11
被引用文献数: 20

音声対話における発話文は言い淀み言い直し間投詞助詞の省略倒置などの話し言葉特有の特徴を持つためこれまでの書き言葉に対する自然言語の解析手法をそのまま適用するには問題がある・本論文では解析においてまず問題と通る名詞文節の助詞落ちと倒置について実際の音声対話文約1 800文を分析しその結果をもとに解析手法を提案する.音声対話文では名詞文節の約4%の助詞が省略されていた.省略される助詞は「がをには」など述部に係る場合に必須格の機能を持つものが80%を占めていた.係り先の性質としては述部に係る助詞落ち名詞文節の99%が最も近くの述部に係る.また文頭にある助詞落ち名詞文節は「は」が省略される可能性が高く(68%) 遠くに係る可能性を持っているまた係り関係(格)については述部の格構造の簡単な意味制約によって 90%が推定できることが分かった.倒置に関しては述部に係る文節が倒置される場合が94%を占めており倒置された句が1つ前の文節に係る場合が91%であった.また倒置された句の直前の文節は必ず終止形で終わっていることが分かった.以上の分析を反映したヒューりスティックスを助詞落ちに関して5つ倒置に関して2つ提案した.語彙が700の小規模な実験タスクで評価した結果助詞落ち倒趣共に約90%の例を正しく解析できることが分かった.

2021-12-22 16:34:01
3 + 3 Twitter

https://ci.nii.ac.jp/naid/110002723414

3 0 0 0 OA 字幕・副音声付きテレビニュース放送を利用可能な語学学習教材作成システムとリスニング教材プレイヤー(<特集>第二言語学習とその支援に関する教育工学研究)

著者: 田中敬志小林聡中川聖一
出版者: 日本教育工学会
雑誌: 日本教育工学雑誌 (ISSN:03855236)
巻号頁・発行日: vol.27, no.3, pp.273-282, 2003-12-20
参考文献数: 18
被引用文献数: 1

これまでに多くの語学学習教材が開発されてきているが,その製作においては多大な時間と労力がかけられている.また,これまでの語学学習教材では,そのコンテンツが限られているため,長時間飽きずに使用を継続することは困難であり,さらに学習者が興味のあるコンテンツを選択する余地はない.そこで本研究では,学習者に興味のあるTVニュース放送をパソコンに取り込み,そのニュース放送を素材とした学習教材を教師または学習者自身で手軽に作成することができるシステムを開発した.勿論,本システムは教師や学習者が自前で収録したビデオを語学学習教材化することもできる.本論文では特に,副音声と字幕の同期手法を取り入れた教材作成システムと教材プレイヤーによって実現される各機能とシステム全体の評価について述べる.教材プレイヤーを用いた被験者実験では学習効果が得られ,それらの評価アンケートでも教材について肯定的な意見が得られた.

2021-03-01 06:00:08
3 + 5 Twitter

https://ci.nii.ac.jp/naid/110003026501

3 0 0 0 音声認識におけるビームサーチ法とA^*探索法の比較

著者: 伊田政樹中川聖一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日: vol.96, no.92, pp.1-8, 1996-06-13
参考文献数: 15
被引用文献数: 4

音声認識システムの実用化には高精度認識と実時間処理という2つの課題がある。近年、より大規模な連続音声認識システムが求められており、全ての候補との照合を行なうことなく高精度かつ効率的な探索処理が必要となってきている。ここでは、ビームサーチ法とA^*探索法による認識性能の評価について述べる。認識実験より、ビームサーチ法は最適性が保証されていないが、適当なビーム幅と枝刈りのしきい値を与えることで、最適解を失う可能性は非常に小さくなり、枝刈りによって探索空間を大幅に削減できるために高速処理が可能となる。さらにここでは、ビーム幅の範囲内に最適バスが存在していることから、A^*探索法の探索空間をビーム幅で制限する方法について提案する。

2017-10-08 16:13:00
3 はてなブックマーク

https://ci.nii.ac.jp/naid/110003296347

3 0 0 0 HMMを用いた英単語音声からの強勢音節の自動検出とそれに基づく発音能力の韻律的評定

著者: 峯松信明藤澤友紀子中川聖一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.82, no.11, pp.1865-1876, 1999-11-25
被引用文献数: 17

日本人によって発声された英単語音声に対する(韻律的)自動評定を目的として,1)英単語音声からの強勢音節検出の自動化,2)提案する強勢音節検出手法に基づいた強勢/弱勢の「音響的適切さ」評定の自動化,について検討した.強勢音節検出においては,音節を単位としたHMMを構築し,その検出を試みた.その際,着目する音節の単語内位置情報/構造情報/コンテクスト情報を導入することでHMMの精度向上を図り,検出性能の改善について実験的に検討した.その結果,同一方言(本論文ではBritish)内では最もカテゴリー数を増やしたHMMにおいて最高平均検出率が得られ,本論文で検討したHMMの高精度化に対する有効性が示された.一方,強勢/弱勢に対する英語としての「音響的適切さ」評定では,強勢音節検出時における「スペクトル」「パワー」「ピッチ」「継続長」の各ゆう度に対する重み係数を変化させ,最高検出率を示す重み(最適重み)を算出し,日本人話者/母語話者間で比較した.その結果,日本人による英単語音声では,ピッチ重みを大きく,スペクトル重みを小さくすることにより検出率が向上するなど,母語話者による英単語音声には見られない傾向(発音上の癖)が観測され,提案手法の,発音能力評定手法としての有効性が示された.

2014-12-18 00:35:08
3 + 1 Twitter

https://ci.nii.ac.jp/naid/110003183557

3 0 0 0 音声認識研究の動向

著者: 中川聖一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.83, no.2, pp.433-457, 2000-02-25
被引用文献数: 66

本論文では音声認識の最近の研究動向について述べる.まず, はじめに, 現在の機械による音声認識能力がまだ人間の能力に及ばないことを述べ, 特に音響モデルの改善が必要なことを論じる.次に実用化にとって重要な雑音等に頑健な特徴パラメータや前処理について述べる.情報理論やパターン認識の立場から認識対象と同じ環境で収集された多量の音声サンプルを用いることが有用であることを指摘する.次に音声認識の中心技術である音響モデルと言語モデルについて述べる.まず, 音響モデルの中心技術となっている隠れマルコフモデル(HMM)の原理と限界を述べ, 最近の改良研究について詳述する.言語モデルの音声認識における役割は, 発声され得ない認識候補の除外, すなわち探索空間の削減にある.言い換えればエントロピーを小さくするモデルが好ましいという観点から統計的な言語モデルの最近の研究動向を述べる.最後に, 音声認識システムを構築するのに留意すべき点について論じる.

2013-04-16 19:20:31
3 + 0 Twitter

https://ci.nii.ac.jp/naid/110003183694

2 0 0 0 音声スペクトルの時間軸・周波数軸・強度軸の同時非線形伸縮に基づく不特定話者の単語音声の認識

著者: 中川聖一神谷伸坂井利之
出版者: The Institute of Electronics, Information and Communication Engineers
雑誌: 電子情報通信学会論文誌 D (ISSN:09135713)
巻号頁・発行日: vol.J64-D, no.2, pp.116-123, 1981-02-25

本論文は,不特定話者の音声自動認識のための個人差,特に年齢・性別が同一層である話者間の個人差の正規化法について述べる.まず,パターンマッチング法で,個人差によるパターン変動に対処するためには,個人差に関する何んらかのモデル・構造を導入する必要のあることを述べる.これに基づいて,音声スペクトルの周波数軸上とスペクトル強度軸上での非線形なマッチングによる正規化法を提案し,この手法を10数字音声の認識に適用する.更に,この手法は,キーワードを用いた話者適応化にも有効であることを示す.最後に,標準パターンの選択法について述べ,これにより不特定話者に対して安定な認識率を得ることができることを示す.本手法により,不特定男性話者30名の10数字音声に対して,約97.6%の認識率を得ることができた.

2017-04-22 21:28:03
2 + 0 Twitter

http://search.ieice.org/bin/summary.php?id=j64-d_2_116&category=D&year=1981&lang=J&abst=

2 0 0 0 音声認識技術を利用した英会話CAIシステム

著者: 中川聖一 Reyes Allan A. 鈴木英之谷口泰広
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:03875806)
巻号頁・発行日: vol.38, no.8, pp.1649-1658, 1997-08-15
参考文献数: 16
被引用文献数: 19

本論文では, 音声認識技術を利用した英会話CAIシステムについて述べる. これは, システムが, 学習者の発話を自動音声認識により理解し, 待ち時間なしで適切な応答を音声で出力し, 対話を進めることにより, スピーキングとヒアリングの能力を高めるものである. まず, 日本人の発声した英語の音声認識を行うためには日本人の英語発音モデルを用いる必要のあることを示す. 次に, 評価実験として4人の日本人男性にこの英会話CAIシステムを使用してもらった評価実験結果について述べる. 使用前と使用後のスピーキングとヒアリングの能力の差を比較したところ, 全員に能力向上がみられた. またアンケートの結果, 本システムを引き続き利用したいとか, システムの応答時間はちょうど良いといった意見が多く得られた.

2016-12-06 08:26:05
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110002721615

2 0 0 0 係り受け関係を用いた重複表現削除

著者: 石〓友子片岡明増山繁山本和英中川聖一
出版者: 一般社団法人言語処理学会
雑誌: 自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日: vol.7, no.4, pp.119-142, 2000-10-10
被引用文献数: 2

字幕生成のためのニュース文要約のような報知的要約では, 原文の情報を落とさないことが望まれる. 本論文では, このような原文の情報を極力落とさない要約手法の一っとして, 重複部削除による要約手法について議論する. テキスト内に, 同一の事象を表す部分が再度出現したならば, その部分を削除することによって冗長度を減少させ, 情報欠落を可能な限り回避した要約を行う. 事象の重複を認定するために, 係り受け関係のある2語が一つの事象を表していると仮定し, 2語の係り受け関係の重複を事象の重複と認定する. また, 2語の係り受け関係を用いて重複部を削除するだけでは, 読みやすく, かつ, 自然な要約文を生成することができない. そのために考慮すべきいくつかの情報について議論する. 以上の方法のうち, 実装可能な部分を計算機上に実装し, 評価実験を行った. 人間による削除箇所と本手法による削除箇所とを比較したところ, 再現率81.0%, 適合率85.1%の結果を得た.

2016-07-16 21:02:37
2 + 0 Twitter

2 0 0 0 日英報道記事からの訳語対応推定:ターム頻度と訳語対応推定性能の相関の評価

著者: 日野浩平宇津呂武仁中川聖一
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2004, no.73, pp.57-63, 2004-07-15
被引用文献数: 1

近年,ウェブ上の日本国内の新聞社などのサイトにおいては,日本語だけでなく英語で書かれた報道記事も掲載しており,これらの英語記事においては,同一時期の日本語記事とほぼ同じ内容の報道が含まれている.本研究では,これらの報道記事のページから,日本語で書かれた文書および英語で書かれた文書を収集し,多種多様な分野について,分野固有の固有名詞(固有表現)や事象・言い回しなどの翻訳知識を自動または半自動で獲得するというアプローチをとる.翻訳知識獲得においては,まず,報道内容がほぼ同一もしくは密接に関連した日本語記事および英語記事を検索する.そして,関連記事組における訳語候補の共起に基づく相関尺度を用いて,二言語間の訳語対応を推定する.本稿では,この尺度を用い,英語タームの出現頻度の分布に応じて,訳語対応推定性能が変化するかどうかを調査し,その相関を評価する.そして,英語タームの頻度が大きいほど,高い訳語対応推定性能が達成できることを示す.This paper focuses on bilingual news articles on WWW news sites as a source for translation knowledge acquisition. We take an approach of acquiring translation knowledge of domain specific named entities, event expressions, and collocational expressions from the collection of bilingual news articles on WWW news sites. In this framework, pairs of Japanese and English news articles which report identical contents or at least closely related contents are retrieved. Then, a statistical measure is employed for the task of estimating bilingual term correspondences based on co-occurrence of Japanese and English terms across relevant Japanese and English news articles. This paper then examines the correlation of term frequencies and correctness of term correspondences estimation. We experimentally show that the more frequent the target English terms be, the more reliably bilingual term correspondences can be estimated.

2016-05-12 05:40:05
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110002911728

2 0 0 0 招待講演音声処理技術がヒトの能力を超える日 (音声) -- (第17回音声言語シンポジウム)

著者: 中川聖一
出版者: 電子情報通信学会
雑誌: 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日: vol.115, no.346, pp.25-30, 2015-12-02

https://ci.nii.ac.jp/naid/40020700088

2 0 0 0 単語N - gram言語モデルを用いた音声認識システムにおける未知語・冗長語の処理

著者: 甲斐充彦廣瀬良文中川聖一
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.40, no.4, pp.1383-1394, 1999-04-15
被引用文献数: 39

対話音声認識システムや大語彙のディクテーションシステムにおいてはシステムの辞書に登録されていない未知語や間投詞・言い直し・言い淀みなどのユーザの要求に関係のない冗長語の扱いが重要である. このような問題に対処するために本研究では単語N-gram言語モデルを用いた連続音声認識アルゴリズムにおいて未知語処理を導入してその効果を調べた. 未知語処理法としてサブワード単位の音響モデルを用いたサブワード系列デコーダを併用しこれによって未知語候補の生成と検証を行う方法を用いる. この方法は以前に文脈自由文法を用いたシステムにおいて有効性を確かめている. 本論文ではこの方法に基づいて単語N-gramベースの認識アルゴリズムに未知語処理を効率的に導入する方法を提案している. 音声対話システムのタスクにおいて未知語や冗長語を含む発話を用いて評価実験を行った結果意味的な誤りが最大で48%減少した. また文脈自由文法に基づく同様なシステムと比較した結果意味理解精度の向上に効果があることが分がった. さらに大語彙連続音声認識タスクにおける効果を確かめるため新聞記事の読み上げ音声を用いた評価実験を行った結果単語単位での認識精度の改善は小さいが文レベルでの高い未知語検出性能が示された.For practical use of spoken dialog systems and dictation systems, it is important to cope with out-of-vocabulary words and filled pauses including the phenomena such as interjection, restart and hesitation. To address these problems, this study tries to use an unknown-word processing (UWP) method for a word N-gram language model based continuous speech recognition system. We investigate an UWP method which employs a subword sequence decoder with subword acoustic models to produce unknown-word hypotheses. This method has been shown to be effective on a small vocabulary task tested with a context-free grammar-based recognition system. This paper proposes an efficient method for incorporating the UWP into a word N-gram language model-based recognition system. We performed a series of experiments to show the effectiveness of the method for spoken dialog tasks and a dictation task. The experimental results show that a semantic accuracy was improved by 48% using the UWP method. Also, in compared with the result of a system using context-free grammar, the word N-gram based system could further improve the semantic accuracy for spontaneous speech. Furthermore, We performed are cognition experiment for a large-vocabulary dictation task. As a result, although only a slight improvement was observed in terms of the word accuracy, the high performance for detecting the existence of unknown-word in an utterance could be achieved.

https://ci.nii.ac.jp/naid/110002724792

1 0 0 0 OA 連続音声の認識および会話音声の理解

著者: 中川聖一
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.37, no.5, pp.223-231, 1981-05-01 (Released:2017-06-02)

2022-01-29 16:27:00
1 はてなブックマーク

1 0 0 0 OA 坂井利之先生のご逝去を悼む

著者: 中川聖一
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.74, no.1, pp.6-7, 2018-12-25 (Released:2018-07-01)

2021-04-11 09:40:43
1 + 4 Twitter

1 0 0 0 言語的・音響的コンテキストが講演音声の聴取および認識に及ぼす効果

著者: 北岡教英新宮将久中川聖一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日: vol.103, no.94, pp.43-48, 2003-05-30
参考文献数: 9
被引用文献数: 1

人間の音響的知覚能力と,局所的なコンテキストを教示して音声を聞かせることで音響モデルとN-gram言語モデルによる音声認識をシミュレーションし,実際の音声認識システムと比較して各モデルの能力について検討を行った.人間の知覚実験ではコンテキストが与えられない場合に短い単語の知覚が難しいが,前2単語程度のコンテキストで短い単語の聴取は改善される.これは,助詞などが多い短い単語のパープレキシティが,言語モデルを用いることで小さくなることに対応する.また,コンテキスト情報のみからの単語予測能力もパープレキシティと強い相関がある.一方,前後2単語のコンテキストを与えると予測能力はさらに向上するが,必ずしも聴取能力の向上につながらない.同様の認識を音声認識システムでも行った.ユニグラム言語モデルと音響モデルによる認識は,人間のコンテキストなしの聴取に遠く及ばないが,トライグラム言語モデルの予測能力は人間と同等以上である.一方で人間でさらに予測能力が向上するコンテキストを与えても知覚能力は向上しないことから単語予測能力の高い言語モデルが認識の向上につながることは考えにくい.すなわち,講演音声などの自由発話認識に対しては,トライグラムによる言語のモデル化は十分でありかつこれ以上の改善による認識率向上は難しい一方で,音響モデルはまだ大きく改善すべきであると考えられる.

2021-03-01 22:44:03
1 + 2 Twitter

https://ci.nii.ac.jp/naid/110003295844

1 0 0 0 講演スタイルの解説番組を対象にした音声認識の検討

著者: 本間真一小林彰夫佐藤庄衛今井亨安藤彰男宇津呂武仁中川聖一
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日: vol.2001, no.55, pp.29-34, 2001-06-01
参考文献数: 12
被引用文献数: 1

我々は、ニュース解説を対象にした音声認識の研究を行っている。これまでの研究では、解説音声は原稿読み上げ音声と異なる音響的特徴および言語的特徴をもつことや、学習データ量も不足していることから、まだ十分な認識精度は得られていない。そこで本稿では、比較的多くのデータ量が得られる講演スタイルの解説番組「あすを読む」を対象にした音声認識について検討を行う。ニュース原稿と「あすを読む」の書き起こしの混合による言語モデルの適応化、言語モデルの学習テキストと発音辞書におけるフィラーの扱いの見直し、音響モデルの話者適応などを行った結果、単語正解精度が67.4%から84.9 %まで改善した。We are studying speech recognition for news commentary. So far we haven't achieved satisfied accuracy for it, because speech of news commentary has different linguistic and acoustic features from read speech and supplies insufficient training data. Therefore, this paper treats speech recognition of a broadcast commentary program called "Asu wo Yomu (Reading Tomorrow)", which has rather more training data. We adapted language models by mixing the news manuscripts and transcriptions of "Asu wo Yomu" in their training texts, changed how to treat pause fillers in the training texts and word lexicon, and carried out speaker adaptation of acoustic models and so on. As a result, we improved the word accuracy from 67.4% to 84.9%.

2019-05-18 22:45:24
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002917233

1 0 0 0 OA それぞれの役割(ちょっとしたエッセイ,コーヒーブレーク)

著者: 中川聖一
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.67, no.6, pp.254, 2011-06-01 (Released:2017-06-02)

2018-09-11 04:28:36
1 + 0 Twitter

1 0 0 0 事前説明によるシステムへの入力発話の変化と誤認識結果の人間による復元

著者: 伊藤敏彦大谷耕嗣肥田野勝山本幹雄中川聖一
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日: vol.1994, no.109, pp.49-56, 1994-12-15
被引用文献数: 5

自然な発話を許す音声対話システムでは、ユーザの発話を表現する文法が書き言葉と比べてかなり緩くなり、しかも間投詞、言い直しなどの現象も多く生じるため、音声認識率はどうしても低くなる。受理可能な文を多くすることと認識率はトレードオフであるためどこかで妥協する必要があり、このため話者の入力文と受理可能な文にはギャップが生じる。また自然な発話を音声認識部だけで対処することは現在のところ無理があり、誤認識された入力文にも対処することが意味理解部に要求される。本報告では以上の問題点に関する検討のための基礎データを集めることを目標に行なった3つの実験について述べる。一つ目は音声対話システムを使用するユーザへの事前の説明を変えることによって対話システムへのユーザの入力がどのように変化するかを調べた。二つ目はユーザの入力文数に対して異なり単語数がどのように変化するかを調べ、あるタスクでどの程度の単語数が必要かを検討した。三つ目の実験は音声認識部によって生じた誤認識を人間はどれくらい原文と意味的に同じ文に訂正できるかである。It is difficult to recognize and understand spontaneous speech, because spontaneous speech has many phenomena of ambiguty such as omissions, inversions, repairs and so on. Since there is a trade-off between the looseness of linguistic constraints and recognition precision, the recognizer cannot perfectly recognize the completely free speech of the user on the current art of speech recognition. Therefore some problems arise. First problem is that there are gaps between sentences a dialog sysytem can accept and sentences the user wants to say. Second problem is that the semantic analyzer has to understand sentences with misrecognition that human never utters. In this paper, we describe three experiments concerning the problems of spontaneous speech dialog systems and their results. First experiment is about effects of a prior explanation of the system's limit on the speaker's utterance. Second experiment is about the relationship between the number of different words and the number of inputs. Third experiment is about recovery strategies of human to understand correct meanings of misrecognized sentences.

2017-06-09 01:45:08
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002916876

1 0 0 0 朗読音声-歌声音声の特徴量変換と話者適応を用いた歌詞認識の性能向上の検討

著者: 川井大陸山本一公中川聖一
出版者: 一般社団法人情報処理学会
雑誌: 研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日: vol.2014, no.2, pp.1-6, 2014-12-08

歌声の自動歌詞認識の第一段階として,本稿では伴奏なし日本語歌唱の自動歌詞認識を行う.このために歌声に適応した言語モデル,音響モデル,発音辞書を使うことで伴奏なし独唱の自動歌詞認識を検討する.言語モデルには歌詞をうまく捉えるために歌詞コーパスで学習した単語 N グラム言語モデルを使用した.音響モデルの学習には,歌声データ不足を補うため少量の歌声データを用いて 2 種類の適応化をした.1 つ目は MAP 適応による音響モデルの適応学習である.MAP 適応では 40 名 40 曲の歌声データを使う方法と,1 曲の話者適応データを使う方法を試みた.2 つ目は朗読 MFCC と歌声 MFCC のペアを使って学習したニューラルネットワークによる特徴変換である.歌声で頻繁に表れる「伸ばす音」に対処するため,発音辞書のバリエーションを増やした.性能評価には,事前に伴奏音を除去した JPOP 男性 7 名 7 曲の楽曲を用いる.実験の結果,提案システムは音節認識精度 46.1% (音素認識精度 59.0%),単語認識精度 25.9% を示し,新聞言語モデルと話し声音響モデルに基づく従来のシステムより良い性能を示した.As a first step, we consider Japanese lyrics recognition in monophonic singing that contains no musical instruments. To express singing well, we attempt to use an n-gram language model using a lyrics corpus, singing-adapted GMM-HMM-based acoustic models and plural pronunciation lexicons for vowel-lengthening. We attempted to adapt the read-speech AMs to sung-speech AMs using two approaches. One is MAP adaptation and the other is neural network-based feature transformation. For adapting to singing, we use 40 pieces of music sung by 40 male singers. For adapting to speaker, we use a piece of music sung by a male singer who is the same speaker as a singer of a test data. To deal with the property of singing offten involving lengthening the duration of each vowel, we augment the pronunciation variations. Evaluation is performed on a test set that contains 7 pieces of commercial music sung by 7 male singers. As a result of experiments, our system showed syllable accuracy of 46.1% (phoneme accuracy of 59.0%) and word accuracy of 25.9% in male monophonic Japanese singing. This result showed higher accuracy than a conventional system based on the newspaper LM and the read-speech AM.

2016-11-29 12:03:50
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110009850912

1 0 0 0 スペクトルサブトラクションと時間方向スムージングを用いた雑音環境下音声認識

著者: 北岡教英赤堀一郎中川聖一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.83, no.2, pp.500-508, 2000-02-25
被引用文献数: 37

雑音環境下の音声認識の前処理として用いられる, パワースペクトル領域でのスペクトルサブトラクションでは, 音声と雑音の間の相関の影響で雑音除去が十分でないことが指摘されている.本論文では, 相関の影響を抑えるための方法として時間方向スムージングを提案する.これは, パワースペクトルの各成分ごとにスムージングを行うものであり, 統計的に相関の影響を小さく抑えることができる.更に, スムージングによる時間分解能の低下を防いでスムージングをより効果的に実現するために, 短い分析窓長で分析を行う方法を提案する.大語彙(い)単語認識実験により, 時間方向スムージング, 特に短い分析窓を用いた場合に有効であることを示す.また, 時間方向スムージングを用いたスペクトルサブトラクションに, 音響モデルを雑音付加音声で学習する雑音付加学習を併用した場合に, 更に認識率が向上することも示す.

2015-04-09 21:00:08
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110003183699

««
«
1
2
»
»»