- 著者
-
伊藤 彰則
好田 正紀
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
- 巻号頁・発行日
- vol.79, no.12, pp.2062-2069, 1996-12-25
- 被引用文献数
-
18
日本語連続音声認識のための新しい言語モデル作成法について述べる.英語のコーパスは単語ごとに分かち書きされているために,単語単位のN-gramが容易に作成できる.これに対して,日本語のコーパスは漢字かな混じり文で記述されているために,事前に形態素解析を行って形態素単位のN-gramを作成するか,あるいは文字単位のN-gramを使う方法が提案されていた.本論文では,これらの手法に対して「かな・漢字文字列によるN-gram」を提案する.この手法は,学習テキストから統計的に決めた単位でテキストを分割し,そのN-gramを求めるという手法である.この手法を用いれば,事前に形態素解析を行うことなくN-gramを作成することができる.テキスト分割の手法についてさまざまな方法を比較した結果,学習テキスト中の出現頻度によって文字列を選択する方法が最も良い性能を与えた.また,学習テキストと評価テキストを変えた実験を行った結果,いずれの条件でも従来法を超える性能を得ることができた.