著者
粟津妙華 高田雅美 城和貴
出版者
一般社団法人情報処理学会
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2014, no.20, pp.1-6, 2014-06-18

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとして Web 上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがヒストグラムでは除去できないルビであり,我々はすでに近代書籍に特化したルビ除去手法を提案している.しかしながら,提案した手法は書籍に付加された外部情報を元にしており,実現可能性は低い.そこで本論文では,書籍画像から直接得られるデータを元に,進化計算によってルビ除去式を生成し,近代書籍から自動でルビを除去する手法を提案する.In National Diet Library, books which are possessed in library as "the digital library from meiji era" are open to the public on Web. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. There is a major obstacle to text conversion. It is ruby. Ruby can not be removed in the histogram method. Therefore, we have proposed a ruby removal method for early-modern Japanese printed books. However, since the proposed method is based on the external information added to the books, the feasibility is low. In this paper, we propose a method to remove the ruby automatically from early-modern Japanese printed books by generating ruby removal formula in Genetic Programming using the training data was based on the data of book image.
著者
粟津妙華 高田雅美 城和貴
雑誌
研究報告数理モデル化と問題解決(MPS)
巻号頁・発行日
vol.2012, no.17, pp.1-6, 2012-11-29

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとして WEB 上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがルビである.現在のルビを直線的に除去する技術は,規格に沿った現在の書籍を対象としたものであるため,現在の書籍とは違う特性を持つ近代書籍には適用できない.そこで,本研究では,遺伝的プログラミングを用いて,曲線的に出版者・時代ごとの専用ルビ除去式の生成を行う.In National Diet Library, books which are possessed in library as "the digital library from meiji era" are open to the public on WEB. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. However, ruby is a disturbing text conversion. Since existing techniques of linearly removing ruby had developed for books of the current standard, the techniques are inapplicable to early-modern Japanese books, which have a specific characteristic different from characters of current books. In this paper, we propose a method to remove ruby from early-modern Japanese books using Genetic Programming.
著者
粟津妙華 高田雅美 城和貴
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.17, pp.1-6, 2012-11-29

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとして WEB 上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがルビである.現在のルビを直線的に除去する技術は,規格に沿った現在の書籍を対象としたものであるため,現在の書籍とは違う特性を持つ近代書籍には適用できない.そこで,本研究では,遺伝的プログラミングを用いて,曲線的に出版者・時代ごとの専用ルビ除去式の生成を行う.In National Diet Library, books which are possessed in library as "the digital library from meiji era" are open to the public on WEB. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. However, ruby is a disturbing text conversion. Since existing techniques of linearly removing ruby had developed for books of the current standard, the techniques are inapplicable to early-modern Japanese books, which have a specific characteristic different from characters of current books. In this paper, we propose a method to remove ruby from early-modern Japanese books using Genetic Programming.