- 著者
-
粟津妙華
高田雅美
城和貴
- 雑誌
- 研究報告バイオ情報学(BIO)
- 巻号頁・発行日
- vol.2012, no.17, pp.1-6, 2012-11-29
国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとして WEB 上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがルビである.現在のルビを直線的に除去する技術は,規格に沿った現在の書籍を対象としたものであるため,現在の書籍とは違う特性を持つ近代書籍には適用できない.そこで,本研究では,遺伝的プログラミングを用いて,曲線的に出版者・時代ごとの専用ルビ除去式の生成を行う.In National Diet Library, books which are possessed in library as "the digital library from meiji era" are open to the public on WEB. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. However, ruby is a disturbing text conversion. Since existing techniques of linearly removing ruby had developed for books of the current standard, the techniques are inapplicable to early-modern Japanese books, which have a specific characteristic different from characters of current books. In this paper, we propose a method to remove ruby from early-modern Japanese books using Genetic Programming.