青池 亨 里見 航 川島 隆徳
vol.2018, pp.97-102, 2018-11-24

The National Diet Library is now developing techniques for automatically recognizing which areas of a printed page are illustrations and which are graphemes, as a means of improving the searchability of digitized material. The ability to distinguish between illustrations and graphemes is expected to im- prove the accuracy of OCR processing by allowing areas without graphemes to be ignored while ena- bling the application of contrast correction to areas with graphemes, thereby improving readability of the digital images. Moreover, the ability to extract areas with illustrations is expected to have practical applications for content-based retrieval of similar images. This paper focuses on the extraction of areas with illustrations and reports on the creation of a system that is consistently able to extract illustra- tions from digital images of documents as well as perform content-based retrieval of images.Services incorporating these proposed techniques will be released on a trial basis on the NDL Lab web- site. (https://lab.ndl.go.jp/).
青池 亨 木下 貴文 里見 航 川島 隆徳
vol.2019, pp.115-120, 2019-12-07

国立国会図書館電子情報部電子情報企画課次世代システム開発研究室(次世代室)では,機械学習技術を図書館サービスに取り入れ,応用することで,資料の検索可能性と提供可能性の拡張を実現するべく調査研究活動に取り組んできた[1].また,これらの研究成果を活用したサービスを一般に利用可能な形で提供する場として,2019 年3 月に「次世代デジタルライブラリー(https://lab.ndl.go.jp/dl/)[2][3]」を公開した.他方,国立国会図書館のデジタル化資料の利活用促進や学術コミュニティへの貢献の観点から,外部の研究者やエンジニアが研究・技術開発用途に利用可能なデータセットを公開することも大きな意義がある.本論文では,国立国会図書館デジタルコレクションのデジタル化資料を活用して作成・公開したデジタル化資料のレイアウトのデータセット(NDLDocL)について,その特色や先行する他機関のデータセットとの相違点を紹介する.また,実際の構築過程における検討事項や開発したアノテーションツールの紹介と,現時点で想定している活用方法のアイデアについて述べる.