著者
森 信介
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.29, pp.27-32, 1997-03-21

本論文では,日本語にンける単語bi?gramモデルと品詞bi?gramモデルの補間を提案する.テストコーパスの解析に必要な未知語モデルも,文字bi?gramと文字種bi?gramの補間により得られるモデルで実現する.このモデルの有効性を確かめるため,形態素解析済みのコーパスを用いて単語bi?gramモデルと品詞bi?gramモデルとこれらを補間したモデルのテストセットバープレキシティを計算した.その結果,単語bi?gramモデルでは151.00であり,品詞bi?gramモデルでは383.61であり,これらを補間したモデルでは,143.49であった.単語bi?gramモデルと品詞bi?gramを補間したモデルは,単語bi?gramと同程度の記憶領域で実現できるので,このモデルは単語bi?gramモデルよりも良いモデルであると結論できる.In this paper, we present an interpolated model between a word bi-gram mode and a part-of-speech bi-gram model. We also present, as an unknown word model, an interpolated model between character bi-gram mode and character type bi-gram model. In order to attest an effectiveness experimentally, we calculated perplexities of the word bi-gram model and the part-of-speech bi-gram model and the interpolated model between them. The results of the word bi-gram was 151.00, the part-of-speech bi-gram model, 383.61 and the interpolated model, 143.49. Since the interpolated model needs as large memory space as the word bi-gram model, it follows that the interpolated model is better than the word bi-gram model.

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト