著者
岩田 彩 上坂 和美 粟津 妙華 石川 由羽 高田 雅美 城 和貴
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:21888833)
巻号頁・発行日
vol.2015-MPS-105, no.10, pp.1-6, 2015-09-22

本稿では,近代書籍で用いられているフォントを用いた活字を自動で生成する手法を提案する.近代デジタルライブラリーで一般公開されている近代書籍のテキスト化に使用する多フォント活字認識手法の精度向上のため,学習データを十分に増やす必要がある.しかし,近代書籍に使用されているフォントは多種多様であるため,十分な学習データを収集することは困難である.そこで本稿では,学習用の近代書籍フォントセットを自動生成する変換フィルタを,遺伝的プログラミングを用いて生成する.
著者
粟津妙華 高田雅美 城和貴
出版者
一般社団法人情報処理学会
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2014, no.20, pp.1-6, 2014-06-18

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとして Web 上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがヒストグラムでは除去できないルビであり,我々はすでに近代書籍に特化したルビ除去手法を提案している.しかしながら,提案した手法は書籍に付加された外部情報を元にしており,実現可能性は低い.そこで本論文では,書籍画像から直接得られるデータを元に,進化計算によってルビ除去式を生成し,近代書籍から自動でルビを除去する手法を提案する.In National Diet Library, books which are possessed in library as "the digital library from meiji era" are open to the public on Web. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. There is a major obstacle to text conversion. It is ruby. Ruby can not be removed in the histogram method. Therefore, we have proposed a ruby removal method for early-modern Japanese printed books. However, since the proposed method is based on the external information added to the books, the feasibility is low. In this paper, we propose a method to remove the ruby automatically from early-modern Japanese printed books by generating ruby removal formula in Genetic Programming using the training data was based on the data of book image.
著者
粟津妙華 高田雅美 城和貴
雑誌
研究報告数理モデル化と問題解決(MPS)
巻号頁・発行日
vol.2012, no.17, pp.1-6, 2012-11-29

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとして WEB 上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがルビである.現在のルビを直線的に除去する技術は,規格に沿った現在の書籍を対象としたものであるため,現在の書籍とは違う特性を持つ近代書籍には適用できない.そこで,本研究では,遺伝的プログラミングを用いて,曲線的に出版者・時代ごとの専用ルビ除去式の生成を行う.In National Diet Library, books which are possessed in library as "the digital library from meiji era" are open to the public on WEB. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. However, ruby is a disturbing text conversion. Since existing techniques of linearly removing ruby had developed for books of the current standard, the techniques are inapplicable to early-modern Japanese books, which have a specific characteristic different from characters of current books. In this paper, we propose a method to remove ruby from early-modern Japanese books using Genetic Programming.
著者
粟津 妙華 高田 雅美 城 和貴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
巻号頁・発行日
vol.8, no.1, pp.72-79, 2015-03-30

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとしてWeb上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキスト化が望まれている.その際,問題となっているのがヒストグラム法では除去できないルビであり,我々はすでに近代書籍に特化したルビ除去手法を提案している.しかしながら,その提案した手法は書籍に付加された版者や時代などの外部情報を利用しなければならず,近代デジタルライブラリのすべての外部情報を利用することはきわめて困難である.そこで本論文では,対象とする書籍画像から直接得られるデータをもとに,進化計算によってルビ除去式を生成し,近代書籍から自動でルビを除去する手法を提案する.In the web site of National Diet Library, the digital library from the Meiji era is open to the public. Since the early-modern Japanese printed books are given as image data, namely, full-text search is not available, automatic conversion to the text is needed. There is a major obstacle to the text conversion because of ruby, which is found in early-modern printed books. Ruby cannot be removed by the existing and traditional histogram method. Therefore, we have proposed a ruby removal method for early-modern printed books. Since the proposed method is based on the external information added to the books, the feasibility is very low. In this paper, we propose a new method to remove the ruby automatically from early-modern Japanese printed books by generating ruby removal formula by Genetic Programming using the training data based on the book images.
著者
粟津妙華 高田雅美 城和貴
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.17, pp.1-6, 2012-11-29

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとして WEB 上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがルビである.現在のルビを直線的に除去する技術は,規格に沿った現在の書籍を対象としたものであるため,現在の書籍とは違う特性を持つ近代書籍には適用できない.そこで,本研究では,遺伝的プログラミングを用いて,曲線的に出版者・時代ごとの専用ルビ除去式の生成を行う.In National Diet Library, books which are possessed in library as "the digital library from meiji era" are open to the public on WEB. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. However, ruby is a disturbing text conversion. Since existing techniques of linearly removing ruby had developed for books of the current standard, the techniques are inapplicable to early-modern Japanese books, which have a specific characteristic different from characters of current books. In this paper, we propose a method to remove ruby from early-modern Japanese books using Genetic Programming.