- 著者
-
森 信介
山地 治
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.38, no.11, pp.2191-2199, 1997-11-15
- 被引用文献数
-
19
本論文では,形態素単位のn?gramモデル(1〓n〓16)による日本語の情報量の上限の推定方法とその結果を示す.各n?gramモデルは,データスパースネスの問題に対応するため,低次のn?gramモデルとの補間を行ってある.補間係数は,最も有効であると考えられている削除補間法により求める.実験ではEDRコーパスの約9割からモデルのパラメータを推定し,残りの1割に対して情報量を計算した.その結果,n=16のときに1文字あたりの情報量は最小の4.30330ビットであった.また,学習コーパスの大きさとモデルの次数による情報量の変化を調べた結果,モデルの次数を上げることによる情報量の減少量は微小であるが,学習コーパスを大きくすることによる情報量の減少量はかなりあるということが分かった.さらに,パラメータ数とエントロピーの関係についても議論する.これは,実際の日本語処理にn?gramモデルを応用する際に,適切にnの値を選ぶ指標となる.In this paper we present an estimate of an upper bound for the entropy of Japanese by morpheme n-gram model(1〓n〓16).Each n-gram model is interpolated with lower order n-gram models.The deleted interpolation method is applied for estimating interpolation coefficients.We estimated the parameters from 90% of the EDR corpus and calculated the entropy on the rest 10%.As the result,the minimum entropy was 4.30330[bit]a character with n=16.The relation between the size of learning corpus or the order of model and entropy showed that incresing the order decreases entropy slightly and increasing the size of learning corpus decreases it noteworthily.In addition,we discuss the relation between the number of parameters and entropy.This is usefull to select the value of n to apply n-gram model to the practical Japanese processing.