- 著者
-
山本 純子
大澤 留次郎
- 出版者
- 国立研究開発法人 科学技術振興機構
- 雑誌
- 情報管理 (ISSN:00217298)
- 巻号頁・発行日
- vol.58, no.11, pp.819-827, 2016
現代に生きるほとんどの日本人は「くずし字」で書かれた古典籍を読めず,大量に現存する古典籍の内容がわからなくなりつつある。そこで,負荷の高い翻刻の省力化を目的に,新方式OCRを開発した。くずし字を含む古典籍を対象とした原理検証実験の結果,一定の条件下で,精度80%以上の自動テキストデータ化が可能であることを実証した。新方式OCRでは,文字画像を位置情報とともに切り出した字形データベースを構築。この字形データベースから類似字形検索により翻刻対象古典籍の文字の文字コードを特定する。また,完全自動化ではなく,人手と自動処理を組み合わせた作業工程設計により翻刻の総合的な負荷軽減を目指す。新方式OCRの仕組みと,これを用いた翻刻の現況を報告する。