著者
城 和貴 高田 雅美 木目 沢司
出版者
奈良女子大学
雑誌
基盤研究(B)
巻号頁・発行日
2014-04-01

本研究課題では近代書籍の自動テキスト化を実現するために必要な学習データを効率良く集めるための支援環境を構築した。規格化された現在の書籍用フォントと違い、近代書籍の活版印刷によるフォントにはデータベース等は存在せず、近代書籍から直接画像を切り出し学習データを作成しなければならないが、文字種が1000種類くらいまでは人手でも困難なく収集できるが、2000種を数える頃には困難を極める。そこで不完全ながら学習データを備えた近代文字認識システムを構築し、それに新たな近代書籍を適用し、正しく認識できない未学習の文字を表示させ、その文字種を人間が判断して学習データに追加するシステムを構築した。