著者
西田 祐輔 今井 浩
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IT, 情報理論 (ISSN:09135685)
巻号頁・発行日
vol.101, no.177, pp.19-24, 2001-07-06

1バイト文字から成るテキスト圧縮の研究に比べて、日本語の特徴をいかした日本語テキストの圧縮アルゴリズムはあまりない。わずかに、圧縮前の前処理の方法などが提案されている程度である。日本語は英語などと異なる体系を持っているため、より効率的に圧縮できる可能性がある。本研究では、このような特徴に着目した新たな方法を提案する。この方法は従来からある圧縮アルゴリズムPPM(Prediction by Partial Match)をベースにしている。PPMは過去の文章から次に来る文字を予測することで、圧縮率を高めるアルゴリズムであるが、ここで紹介するのはそれを日本語主体のテキストに特化させたものである。