著者
青池 亨 里見 航 川島 隆徳
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.97-102, 2018-11-24

The National Diet Library is now developing techniques for automatically recognizing which areas of a printed page are illustrations and which are graphemes, as a means of improving the searchability of digitized material. The ability to distinguish between illustrations and graphemes is expected to im- prove the accuracy of OCR processing by allowing areas without graphemes to be ignored while ena- bling the application of contrast correction to areas with graphemes, thereby improving readability of the digital images. Moreover, the ability to extract areas with illustrations is expected to have practical applications for content-based retrieval of similar images. This paper focuses on the extraction of areas with illustrations and reports on the creation of a system that is consistently able to extract illustra- tions from digital images of documents as well as perform content-based retrieval of images.Services incorporating these proposed techniques will be released on a trial basis on the NDL Lab web- site. (https://lab.ndl.go.jp/).
著者
永崎 研宣 青池 亨 本間 淳
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2022-CH-129, no.13, pp.1-3, 2022-05-14

現在のデジタルアーカイブの多くは,実物をデジタル撮影した画像を掲載している.そのなかでは,現物のサイズを確認できるように定規を画像に写し込んでいるものが多く見られる.これは目視でサイズを想定しながらデジタル化資料を閲覧する際にはきわめて有用である.一方,関連のある複数の画像を対比したり重ねて透過したりすることは,デジタルアーカイブに搭載されたコンテンツの利活用方法として有効であるものの,この場合には,この画像中の定規は,目視でサイズをあわせるべく画像を縮小拡大しながら調整する際の参考情報でしかなかった.そこで,筆者らは,二つの画像に写し込まれたそれぞれの定規を画像認識によって比較し,画像サイズを自動的に調整するモデルを考案し,それに沿った実装を開発した.本発表では,このモデルと実装について報告し,今後の課題を提示する.
著者
青池 亨 木下 貴文 里見 航 川島 隆徳
雑誌
じんもんこん2019論文集
巻号頁・発行日
vol.2019, pp.115-120, 2019-12-07

国立国会図書館電子情報部電子情報企画課次世代システム開発研究室(次世代室)では,機械学習技術を図書館サービスに取り入れ,応用することで,資料の検索可能性と提供可能性の拡張を実現するべく調査研究活動に取り組んできた[1].また,これらの研究成果を活用したサービスを一般に利用可能な形で提供する場として,2019 年3 月に「次世代デジタルライブラリー(https://lab.ndl.go.jp/dl/)[2][3]」を公開した.他方,国立国会図書館のデジタル化資料の利活用促進や学術コミュニティへの貢献の観点から,外部の研究者やエンジニアが研究・技術開発用途に利用可能なデータセットを公開することも大きな意義がある.本論文では,国立国会図書館デジタルコレクションのデジタル化資料を活用して作成・公開したデジタル化資料のレイアウトのデータセット(NDLDocL)について,その特色や先行する他機関のデータセットとの相違点を紹介する.また,実際の構築過程における検討事項や開発したアノテーションツールの紹介と,現時点で想定している活用方法のアイデアについて述べる.
著者
青池 亨
雑誌
じんもんこん2021論文集
巻号頁・発行日
vol.2021, pp.72-79, 2021-12-04

国宣国会図書館のデジタル化資料について,機械学習を適用したサービス提供の改善を試みるに当たっては, 日指す機能を実現するための有効性や構築コストに考慮してデータセットの設計・整備を行うこと,また,既存の大規模データ資源や日覚ましく進展する画像認識分野の機械学習アルゴリズムを活用することの両方に目を配る必要がある.本論文では,新たに構築・公開したデータセット件(画像タグデータセットNDL-ImageLabel及びOCR1行データセットについて,その設計思想と有効性を論じ,実際の活用事例として年末にサービスの改修を予定している次世代デジタルライブラリーの技術要素や新規事業の技術検討における役割を紹介する.本論文で取り上げたデータセットや機械学習モデルについてはNDLラボのGitHub(https://github.com/ndl-lab/)から公開している.
著者
徳原 直子 青池 亨
出版者
デジタルアーカイブ学会
雑誌
デジタルアーカイブ学会誌 (ISSN:24329762)
巻号頁・発行日
vol.6, no.s3, pp.s210-s213, 2022 (Released:2022-11-02)
参考文献数
7

令和3年度、国立国会図書館は、二つのOCR関連事業を外部委託にて実施した。一つは、国立国会図書館が保有するデジタル化資料約247万点(2億3000万画像)のOCRによるテキスト化であり、もう一つはオープンソースで公開可能なOCR処理プログラムの研究開発である。令和4年3月から5月にかけて、OCR関連事業の成果物の一部を使った実験サービスをNDLラボ上で公開した。NDLラボは、次世代の図書館システムの開発に資する要素技術の実証実験を行うウェブサイトである。令和4年9月現在、NDLラボ上の実験サービス「次世代デジタルライブラリー」及び「NDL Ngram Viewer」は、著作権保護期間が満了した図書約28万点の全文テキストデータを対象としている。本発表では、OCR関連事業の概要、実験サービスの特徴を紹介するとともに、沖縄に関連するキーワードを用いた検索結果から、本文テキストデータの地域史研究等への活用可能性を探る。