著者
芦田 尚美 高田 雅美 木目沢 司 城 和貴
出版者
一般社団法人情報処理学会
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.19, pp.205-208, 2009-02-26

国立国会図書館は,所蔵する明治から大正期にかけての近代書籍を近代デジタルライブラリーとしてWeb上で一般に公開している.公開されている書籍は全て画像としてデータ化されており,全文検索を用いて書籍内容の検索を行うことができないため,早急なテキストデータ化が求められている.しかし,旧字体を多く含み活字の種類が特定できない近代書籍はOCRソフトウェアによるテキスト化を適用できない.そこで,本研究では近代書籍に特化した活字認識の手法を提案する.National Diet Library has a public web site as Early-Modern Digital Library for books in Meiji and Taisho periods. Since the archive is digitalized as images, text search for the books is not applicable and, therefore, required. Conventional OCR systems are not a good tool for such modern books because they have various font sets and most of them are very noizy. In this paper, we propose a character recognition method for early-modern printed books.

言及状況

はてなブックマーク (2 users, 2 posts)

収集済み URL リスト