- 著者
-
青池 亨
木下 貴文
里見 航
川島 隆徳
- 雑誌
- じんもんこん2019論文集
- 巻号頁・発行日
- vol.2019, pp.115-120, 2019-12-07
国立国会図書館電子情報部電子情報企画課次世代システム開発研究室(次世代室)では,機械学習技術を図書館サービスに取り入れ,応用することで,資料の検索可能性と提供可能性の拡張を実現するべく調査研究活動に取り組んできた[1].また,これらの研究成果を活用したサービスを一般に利用可能な形で提供する場として,2019 年3 月に「次世代デジタルライブラリー(https://lab.ndl.go.jp/dl/)[2][3]」を公開した.他方,国立国会図書館のデジタル化資料の利活用促進や学術コミュニティへの貢献の観点から,外部の研究者やエンジニアが研究・技術開発用途に利用可能なデータセットを公開することも大きな意義がある.本論文では,国立国会図書館デジタルコレクションのデジタル化資料を活用して作成・公開したデジタル化資料のレイアウトのデータセット(NDLDocL)について,その特色や先行する他機関のデータセットとの相違点を紹介する.また,実際の構築過程における検討事項や開発したアノテーションツールの紹介と,現時点で想定している活用方法のアイデアについて述べる.