著者
山田 奨治 梅田 三千雄 川口 洋 柴山 守 加藤 寧 石谷 康人
出版者
国際日本文化研究センター
雑誌
基盤研究(B)
巻号頁・発行日
1999

本研究では、つぎのような成果を得ることができた。1.古文書文字認識手法の基礎的研究古文書文字に特有な文字認識機能と文字切り出し方法について検討した。限定された文字種のデータに対して既存の日本語手書き文字認識技術を適用し、95%を超える認識率が得られることを確認すると同時に、文字切り出し及び正規化に関して新しい手法を開発した。2.古文書文字認識研究のためのデータベース作成古文書文字認識研究を推進するための、25万字に及ぶ古文書文字データベースを完成させ、その一部をすでに公開している。3.古文書解読支援システムのユーザインタフェースの開発古文書解読知識を利用した証文類の翻刻支援システムと古文書翻刻支援のための電子辞書のプロトタイプを実装した。前者はn-gram情報を使って不明文字の正解候補を提示するシステムで、利用試験の結果、その有用性が確認された。後者のプロトタイプには2種類ある。第1は、文字コードからくずし字を検索し、さらに例示された文字と類字した文字をオンラインとオフラインの文字認識技術の応用により検索する機能を持っている。第2のプロトタイプは、タブレット入力された文字と外形が似たくずし字をオフライン文字認識によって検索する機能を持っている。
著者
梅田 三千雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.3, pp.796-804, 1999-03-15

日本の苗字が備えている種々の性質を明らかにすることを目的として 苗字データベースを作成し その計量的分析を行った. ここでは より普遍的なデータの収集をねらいとして 約7.1万個から成る日本の苗字データベースを作成した. このデータベースをもとに 苗字に出現する文字の種類や頻度 文字位置とそこに出現する文字の種類など 文字と文字連接に関する統計データを求めた. これより 日本の苗字には文字位置によって 出現する文字の種類とその頻度に大きな偏りのあることが明らかになった. さらに 実際の使用頻度を考慮した分析として 市販の電話帳データベースを利用した検索により 苗字の使用頻度 苗字ならびに文字と文字連接のエントロピーなどを測定した. これより 苗字のエントロピーは英単語のそれにほぼ等しいことが明らかになった. また ここで得られた苗字の諸性質は 宛名や個人情報の文字認識において 苗字部分の文字切り出しでの知識として利用したり 認識対象文字の種類を決定 限定したりするのに利用することが可能であり 認識精度の向上につながることが期待される.In this paper, Japanese family names database is constructed and several characteristics of Japanese family names are extracted from this database to be utilized in the process of characters recognition. This database contains 71452 kinds of Japanese family names. For example, one to six characters are used in family names and 80% of names consist of two characters. All Japanese family names are composed of 3796 character categories. There are 1400 character categories which are used more than 10 times in the names. When 1000 character categories are selected in order of appearance frequency, the rate of those characters used in the names is to be 92%. The 84% of all the family names are perfectly constructed by high frequency 1000 characters. Furthermore, by accessing Japanese telephone numbers database, some characteristics of family names considered the usage frequency are extracted samely. From these metrical analysis, the lack of precision in the pattern recognition algorithm can be recovered by using such characteristics of Japanese family names.
著者
柴山 守 笠谷 和比古 加藤 寧 山田 奨治 川口 洋 原 正一郎 並木 美太郎 柴山 守 石谷 康人 梅田 三千雄
出版者
京都大学
雑誌
基盤研究(B)
巻号頁・発行日
2002

本研究は、古文書翻刻支援システム開発プロジェクト(HCRプロジェクト)において、手書き文字OCR技術などを発展的に応用して、古文書文字認識システムの高精度化に関する研究を行うことである。平成14-16年度の研究期間において、主に古文書文字データベースを構築すること、及び日本語文字認識アルゴリズムの適用可能な範囲と問題点を洗い直し、以下の検討課題での研究をすすめ、成果を挙げた。(1)文字切り出し法、及び正規化法について:射影ヒストグラム、文字外形の曲率などの手法を検討し、レイアウト認識では、Hough変換による行抽出方式を提案し、文字データベースの基づく実験を進めた。(2)オフライン文字認識手法について:古文書文字認識に有効と考えられる文字切り出しと文字認識を連携処理させる方法について検討した。非線形正規化手法の研究及び実験を行った。(3)オンライン文字認識手法について:くずし字検索等に適用可能なタブレット入力によるオンライン古文書文字認識手法について検討した。また、『くずし字解読辞典』の文字画像から筆順を推定する手法の研究を行った。本成果は、電子くずし字辞典として平成17年度中に刊行する予定である。(4)東京堂出版『漢字くずし方辞典』の文字パターンを入力し、オンライン検索ソフトウェアの開発を行った。これも上記の(3)に含め、刊行予定である。(5)文字認識用文字パターン辞書として、9種類の古文書文字データベースを公開した。すべてがHCRプロジェクトのホームページは,http//www.nichibun.ac.jp/shoji/hcr/からダウンロード可能である。また、公開したソフトウェアは、2種類GetAMojiマクロ(古文書翻刻中に遭遇する不明文字(ゲタ文字)の正解候補を提示する機能)、及びWeb版GetAMoji(古文書翻刻中に遭遇する不明文字(ゲタ文字)の正解候補を提示する機能のWeb版)である。
著者
松尾 賢一 上田 勝彦 梅田 三千雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.80, no.6, pp.1617-1626, 1997-06-25
被引用文献数
56

2値画像の単純さを表す尺度とされる複雑度および平均隣接数を用いて, 適応しきい値法に基づく情景画像からの銀行看板上の文字列抽出方法について述べる. 明度情景画像に対して各明度値をしきい値として2値化し, 複雑度あるいは平均隣接数を求めて変化を曲線に表す. この変化の極大となる点より, 比較的単純な2値画像が得られる複数のしきい値を定める. これにより, 明度情景画像を複数枚の分解画像と呼ぶ2値画像に変換する. そして, 分解画像内における閉領域の外接方形の形状から閉領域を3種類に分類する. このうち文字領域候補として分類された方形に対して文字列の連結性を規定する4条件を設定し, それをもとに分解画像ごとに文字列領域候補を決定する. 次に, 分解画像ごとに得られた文字列領域候補を重畳した文字列統合画像を作成し, X軸方向における文字総数ヒストグラムより, 文字列候補の出現頻度を求め文字列領域を抽出する. 本手法より, カラー情景画像100枚中450文字を対象に文字列抽出実験を行い, 分解画像の作成に複雑度を用いた手法から, 文字領域抽出率93.3%, 文字列領域候補抽出率85%, 文字列領域抽出数は100列中97列の結果が得られた.
著者
梅田 三千雄
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.3, pp.796-804, 1999-03-15

日本の苗字が備えている種々の性質を明らかにすることを目的として 苗字データベースを作成し その計量的分析を行った. ここでは より普遍的なデータの収集をねらいとして 約7.1万個から成る日本の苗字データベースを作成した. このデータベースをもとに 苗字に出現する文字の種類や頻度 文字位置とそこに出現する文字の種類など 文字と文字連接に関する統計データを求めた. これより 日本の苗字には文字位置によって 出現する文字の種類とその頻度に大きな偏りのあることが明らかになった. さらに 実際の使用頻度を考慮した分析として 市販の電話帳データベースを利用した検索により 苗字の使用頻度 苗字ならびに文字と文字連接のエントロピーなどを測定した. これより 苗字のエントロピーは英単語のそれにほぼ等しいことが明らかになった. また ここで得られた苗字の諸性質は 宛名や個人情報の文字認識において 苗字部分の文字切り出しでの知識として利用したり 認識対象文字の種類を決定 限定したりするのに利用することが可能であり 認識精度の向上につながることが期待される.
著者
松尾 賢一 上田 勝彦 梅田 三千雄
雑誌
全国大会講演論文集
巻号頁・発行日
vol.55, pp.101-102, 1997-09-24

宅配会社は, 荷物を配送地域への仕分けの際に区分けコードを使用している。区分けコードは, 4桁の数字とその中間にハイフンを持ち, 配送伝票上に赤色のフェルトペンで重ね書きされている。本研究では, この配送伝票からの重ね書き文字の抽出手法を提案し, その手法の有効性の評価および検討を行なう。