- 著者
-
森 信介
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.1997, no.29, pp.27-32, 1997-03-21
本論文では,日本語にンける単語bi?gramモデルと品詞bi?gramモデルの補間を提案する.テストコーパスの解析に必要な未知語モデルも,文字bi?gramと文字種bi?gramの補間により得られるモデルで実現する.このモデルの有効性を確かめるため,形態素解析済みのコーパスを用いて単語bi?gramモデルと品詞bi?gramモデルとこれらを補間したモデルのテストセットバープレキシティを計算した.その結果,単語bi?gramモデルでは151.00であり,品詞bi?gramモデルでは383.61であり,これらを補間したモデルでは,143.49であった.単語bi?gramモデルと品詞bi?gramを補間したモデルは,単語bi?gramと同程度の記憶領域で実現できるので,このモデルは単語bi?gramモデルよりも良いモデルであると結論できる.In this paper, we present an interpolated model between a word bi-gram mode and a part-of-speech bi-gram model. We also present, as an unknown word model, an interpolated model between character bi-gram mode and character type bi-gram model. In order to attest an effectiveness experimentally, we calculated perplexities of the word bi-gram model and the part-of-speech bi-gram model and the interpolated model between them. The results of the word bi-gram was 151.00, the part-of-speech bi-gram model, 383.61 and the interpolated model, 143.49. Since the interpolated model needs as large memory space as the word bi-gram model, it follows that the interpolated model is better than the word bi-gram model.