- 著者
-
猪村 元
田中 譲
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
- 巻号頁・発行日
- vol.92, no.11, pp.2022-2032, 2009-11-01
- 被引用文献数
-
1
近年,電子図書館やディジタルアーカイブと呼ばれる電子的な文書管理において歴史的文書をはじめとした手書き文書の電子化が重要視されている.これらの文書に対して,文字列検索の手法を提供することは,文書の活用という観点から意義が大きい.本論文では,毛筆の手書き文書画像を対象に,文字の図形としての形状特徴をもとに生成した,擬似的な文字コードを文書の内部表現として用いることで高速な全文検索を実現する手法について述べる.この手法は統計的な画像特徴量による画像検索の手法を応用したものであるため,特定のフォントや言語に依存せずに統一的な手法で適用可能である.提案手法ではまず,文書画像を文字領域を含んだ等しい大きさの方形領域に分割し,各領域から文字の形状特徴量を抽出する.更に,この特徴量に基づいた擬似コードを各領域に付加することによって通常のテキスト文書と同等の文字列検索を画像上で実現する.また,実際に手書きの草書体古文書を対象にした文字列の検索評価実験を行い,3-gramの場合に再現率0.8において適合率0.53の結果を得た.また,文書画像検索に適した形状特徴量,擬似コード生成手法の評価と考察も行った.