- 著者
-
森 信介
山地 治
長尾 眞
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
- 巻号頁・発行日
- vol.1997, no.120, pp.87-94, 1997-12-11
- 被引用文献数
-
8
本論文では、文字 n?gramモデルや形態素 n?gramモデルの予測単位を文字列や形態素列に拡張した連文字 n?gramモデルや連語 n?gramモデルを定義し、予測力という観点でモデルを改善する方法を提案する。モデルの探索における目的関数は、形態素クラスタリングで有効性が示されている平均クロスエントロピーである。これは、削除補間のように、評価用のコーパスとモデルの推定用のコーパスとを別に用意するというアイデアに基づいている。日本語コーパスを用いた実験の結果、クロスエントロピーを計算すると、連文字 n?gramモデルは4.3791であり文字 n?gramモデルの5.4105より低く、連語 n?gramモデルは4.4555であり形態素 n?gramモデルの4.6053より低く、モデルの改善が観測された。In this paper, we define a string-based n-gram model and a phrase-based n-gram mode as expansions of character n-gram model and word-based n-gram model, and we propose a method to improve an n-gram model in terms of prediction. The objective function in model search is the average cross entropy, which is proven to be effective for word clustering. This criterion is, like deleted interpolation, based on the idea of separation of the corpus for evaluation and the corpus for model estimation. As an experimental result on a Japanese corpus, we obtained the entorpeis as follows: the string-based n-gram model had 4.3791, which is less than the character n-gram model's 5.4105, and the phrase-based n-gram mode had 4.4555, which is less than the word-based n-gram model's 4.6053.