著者
近藤博人 松本 隆一 柴山 守 山田 奨治 荒木 義彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.6, pp.1-8, 2003-01-24
被引用文献数
8

古文書画像を対象にした翻刻支援システムの構築を行っている。本稿では、文字認識の対象となる標題画像の射影ヒストグラムから推定した探索範囲に対して、文字パターン辞書から取り出した文字パターンを探索範囲内の最大文字幅で正規化しテンプレートとしてマッチングを行う、切り出しを前提としない認識手法について述べる。本手法を用いた実験では、近世の借金等証文類を中心にした『伏見屋善兵衛文書』(約1 900点、大阪市立大学所蔵)から200標題(及び、辞書に存在しない文字、又はサンプル数の少ない文字が含まれる標題を除く151標題)を対象として認識実験を行い、翻刻結果とする候補文字の抽出を行った。結果は、認識後の候補文字の抽出における認識率は、59.5%(69.7%)の結果であった。そこで設定に失敗した探索範囲を分析し、文字パターン辞書に含まれる特異な形状をもつ文字種に対する正規化、および先頭文字における適切な探索範囲を再設定する改良によって、候補文字の抽出においては70.4%(83.1%)の結果が得られた。We have developed a transliteration assisting system which recognizes the character in the document written by calligraphic brush in the historical materials.This paper describes new recognizing scheme which tries to recognize the character without segmentation in the search area estimated from the projection histogram in a title image. A template image, which is a character pattern image extracted from the character pattern dictionary, before template-matching is normalized to be adjusted to a width of character pattern in the searching area after extracting from the dictionary. In an experiment for recognizing 200 titles(151 titles for eliminating them with few character patterns in the dictionary) in the Fushimiya Document, the recognizing rate was 59.5%(69.7%). Furthermore, in the experiment by improving the appropriate normalization for some characters with special shape, and the connection for joining divided searching areas at first character in title image, the result of the recognizing rate was 70.4%(83.1%).
著者
富田 浩章 柴山 守 荒木 義彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.42, pp.7-12, 1996-05-17
参考文献数
5
被引用文献数
4

ワークステーション()上での古文書のビデオ静止画像における画像処理による文字のセグメンテーションとパターン字書作成の手法を提案する。古文書では続け字が多く、文字毎のパターン字書は作成することが困難である。そこで画像処理、特に2値化処理により文字の特徴、ならびに文字の分割を明確にし、文字毎のパターン字書を得る。また、2値化レベルの変動にともなうセグメンテーションの変化についても検討、考察する。We propose a method of character segmentation and pattern dictionary using image processing in a static video image of "Komonjo" on the workstation. In the "Komonjo" there are many characters connecting with others, so it is difficult to construct a pattern dictionary of every character. So using binary level control, characteristics of character and character segmentation become clear and we get the pattern dictionary of every character. We examine segment variation by a change in binary level.