著者
手操 俊文 坪井 昭憲 吉村 ミツ 八村 広三郎
雑誌
じんもんこん2006論文集
巻号頁・発行日
vol.2006, pp.117-124, 2006-12-14

おもに江戸期に出版された版本をデジタル化した画像から,それぞれの文字を切り出すための手法と,その結果を利用したキャラクタスポッティングについて報告する.文字切り出しは,汚れやシミの除去,2値化,行の切り出し,ラベリング処理による文字の分離と統合の処理などからなっている.ここでは,2値化の処理は,頁全体,行単位,さらには局所的な文字のブロック単位でという風に順次適応的に適用することにより,汚れやシミの影響をあまり受けずに文字切り出しの精度を向上させることができた.また切り出しが成功した文字図形に対して,文字図形の類似性に基づくキャラクタスポッティングを行った.特徴量として,画素値と加重方向指数ヒストグラムを用いた場合について検討した.どちらの場合もある程度の結果を得ることができ,これをコンコーダンスやKWICの作成;;へ応用できることを示した.