- 著者
-
福尾 真実
高田 雅美
城 和貴
- 雑誌
- 研究報告数理モデル化と問題解決(MPS)
- 巻号頁・発行日
- vol.2012-MPS-87, no.34, pp.1-6, 2012-02-23
本研究では,近代デジタルライブラリーが所蔵する画像データから上手く文字を切り出す実際的手法の開発を行う.国立国会図書館では近代デジタルライブラリーとして,所蔵する書籍を Web 上で一般公開している.これらは,画像データとして公開されており,文書内容を用いた検索が行えないため,早急なテキスト化が求められている.そのため,近代書籍に特化した多フォント漢字認識手法が提案されている.しかし,ルビが振られた書籍からは上手く文字が切り出せず,認識ができない.そこで本稿では書籍の本文からルビを取り除く手法を開発する.