- 著者
-
森 大毅
阿曽 弘具
牧野 正三
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.1994, no.63, pp.89-96, 1994-07-21
- 被引用文献数
-
5
trigramモデルは自然言語の局所的性質の良い近似となっており、パターン認識全般において広く用いられている。本報告では、日本語文書中の文字系列のtrigramモデルを用いた文字認識後処理の手法について述べ、実際に文字認識実験を行うことでその有効性を明らかにする。新聞の社説を統計処理することによりモデルを構築し、そのしぼり込み効果をパープレキシティを用いて評価する。その際2種類のスムージング法を導入し、削除補間法を用いた場合の予測性能が優れていることを示す。3種類の文書に対して文字認識後処理を適用した結果、誤字の回復率が75%から90%以上と高い効果が得られた。Being a good representation of local feature of natural languages, trigram model is widely applied to various pattern recognition system. In this report, a postprocessing method for character recognition using the trigram model of the character sequences in Japanese documents is described, and its advantage is revealed by practical experiments. The model is trained by statistical processing of leading articles, then the ability to reduce ambiguity is evaluated by the perplexity. In this procedure, two smoothing methods are introduced, and the predictive power of deleted interpolation method is shown to be superior. Experimental results of postprocessing for three kinds of documents show that the correction rates are 75 to over 90 percent.