- 著者
-
粟津 妙華
高田 雅美
城 和貴
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
- 巻号頁・発行日
- vol.8, no.1, pp.72-79, 2015-03-30
国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとしてWeb上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキスト化が望まれている.その際,問題となっているのがヒストグラム法では除去できないルビであり,我々はすでに近代書籍に特化したルビ除去手法を提案している.しかしながら,その提案した手法は書籍に付加された版者や時代などの外部情報を利用しなければならず,近代デジタルライブラリのすべての外部情報を利用することはきわめて困難である.そこで本論文では,対象とする書籍画像から直接得られるデータをもとに,進化計算によってルビ除去式を生成し,近代書籍から自動でルビを除去する手法を提案する.In the web site of National Diet Library, the digital library from the Meiji era is open to the public. Since the early-modern Japanese printed books are given as image data, namely, full-text search is not available, automatic conversion to the text is needed. There is a major obstacle to the text conversion because of ruby, which is found in early-modern printed books. Ruby cannot be removed by the existing and traditional histogram method. Therefore, we have proposed a ruby removal method for early-modern printed books. Since the proposed method is based on the external information added to the books, the feasibility is very low. In this paper, we propose a new method to remove the ruby automatically from early-modern Japanese printed books by generating ruby removal formula by Genetic Programming using the training data based on the book images.