- 著者
-
青池 亨
- 雑誌
- じんもんこん2021論文集
- 巻号頁・発行日
- vol.2021, pp.72-79, 2021-12-04
国宣国会図書館のデジタル化資料について,機械学習を適用したサービス提供の改善を試みるに当たっては, 日指す機能を実現するための有効性や構築コストに考慮してデータセットの設計・整備を行うこと,また,既存の大規模データ資源や日覚ましく進展する画像認識分野の機械学習アルゴリズムを活用することの両方に目を配る必要がある.本論文では,新たに構築・公開したデータセット件(画像タグデータセットNDL-ImageLabel及びOCR1行データセットについて,その設計思想と有効性を論じ,実際の活用事例として年末にサービスの改修を予定している次世代デジタルライブラリーの技術要素や新規事業の技術検討における役割を紹介する.本論文で取り上げたデータセットや機械学習モデルについてはNDLラボのGitHub(https://github.com/ndl-lab/)から公開している.