- 著者
-
島 貴宏
寺沢 憲吾
川嶋 稔夫
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
- 巻号頁・発行日
- vol.110, no.467, pp.1-6, 2011-03-03
- 参考文献数
- 5
古い活字文書に対する画像同士の比較による全文検索技術が研究されている.全文検索にあたってはあらかじめ文字切り出しがなされていることが望ましいが,古い活字文書は現代の文書とは異なる特性を持っており,市販OCRソフトウェアでは高精度な文字切り出しが行えない.そこで本研究では,明治期の新聞画像に対する全文検索のため,高精度な文字切り出しを行うための画像処理技術について研究する.精度低下を招く要因として考えられる罫線・ノイズ・ルビを除去する手法を提案し,高精度化を図る.また,市販OCRソフトウェアでは古い活字文書に対するレイアウト解析に限界があるため,あらかじめ行切り出しを行うことでそれを助ける.実験の結果,文字切り出しの精度を約92%まで向上させることができた.