著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.22, pp.17-24, 1999-03-04
被引用文献数
3

近年,インターネットの普及により,OCRを用いたテキストの電子化がますます重要な課題となってきた.日本語OCR誤り訂正の先行研究において統計的言語モデルを利用して訂正対象と同じ分野の学習コーパスを用意することで高精度の訂正能力を示す研究がある.しかし,電子化された大量テキストコーパスを期待できない場合が多い.そこで電子化されたコーパスがない分野に対して,OCR処理された誤りを含むテキストから学習を行なうモデルを構築する.この時,辞書に無い未知語獲得もOCR処理されたテキストから行なう.実際にOCR処理されたテキストに対する訂正実験の結果,学習コーパスと訂正対象の分野が一致していた先行研究に比べ約1/4程度の訂正精度を示したことを報告する.In recent years, OCR error correction is becoming more and more important technique for the purpose of converting printed texts into electronic ones on computers. As a previous work, there are some studies of OCR post processor which show high performance of error correction when they use a large on-line corpus which is the same domain as their target of correction. However, we cannot prepare large on-line corpus at every domain. In this paper, we present an OCR error correction method which uses OCR's output texts in a domain in which no large scale training text exists. We also show some methods to get unknown words using OCR's output texts. When our method is applied to error correction of OCR's output texts, the experimental results shows that the performance is quarter as much as our previous result in which target text and a on-line corpus are of the same domain.

言及状況

Twitter (4 users, 4 posts, 2 favorites)

「統計的形態素解析と文字n-gramを利用したOCR誤り訂正」 : http://ci.nii.ac.jp/naid/110002935085

収集済み URL リスト