- 著者
-
榎本 友理枝
高田 雅美
木目沢 司
城 和貴
- 出版者
- 情報処理学会
- 雑誌
- 研究報告数理モデル化と問題解決(MPS) (ISSN:21862583)
- 巻号頁・発行日
- vol.2011, no.14, pp.1-6, 2011-02-28
国立国会図書館では,所蔵する明治から大正期にかけての近代書籍を画像データとしてアーカイブ化し,Web 上で一般に公開している.このデジタルアーカイブをより簡便に利用できるよう,近代書籍画像の早急なテキスト化が望まれている.本稿では,SVM に基づく近代書籍に特化した多フォント漢字認識手法の有効性を実証する.出版社が異なる書籍から切り出した様々なフォントの漢字 256 種を用いて識別実験を行った結果,常に 92% 以上の識別率を得ることができた.従って,文字画像に対して PDC 特徴を抽出し,SVM で学習・識別を行うという提案手法が近代書籍で使用されている多フォント漢字認識に対して有効な手法であるといえる.The national diet library in Japan provides a web based digital archive for early-modern printed books by image. To make better use of the digital archive, the book images should be converted to text data. In this paper, we evaluate the SVM based multi-fonts Kanji character recognition method for early-modern Japanese printed books. Using several sets of Kanji characters clipped from different publishers' books, we obtain the recognition rate of more than 92% for 256 kinds of Kanji characters. It proves our recognition method, which uses the PDC feature of given Kanji character images for learning and recognizing with a SVM, is effective for the recognition of multi-fonts Kanji character for early-modern Japanese printed books.