著者
王 一凡
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.8, pp.1-4, 2015-05-09

大正新脩大蔵経所収 『一切経音義』 は,活字本でありながら多様な差異を有する膨大な異体字群を内包している.当資料を適切にデジタル化・UCS 符号化するためには,活字の異同を検討したうえで用字に関する体系的な理解を得る必要があるが,総字数 100 万字超,異なり活字約 3 万種と推定される本文を直接点検しながら,一貫性のある分析を行うことは困難である.したがって,活字の集計を省力化する手段が求められる.本報告では,オープンソースライブラリ OpenCV による自動処理を適用することでこれを実現する試みを紹介し,もって特定分野への汎用ライブラリの応用の可能性を提示する.
著者
王 一凡 永崎 研宣 下田 正弘
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2016-CH-110, no.7, pp.1-7, 2016-05-07

複層的な伝承経路に由来する膨大な活字種を内包した 『大正新脩大藏經』 所収 「一切経音義」 「続一切経音義」 本文の分析にあたり,版面画像から各グリフ画像を自動的に切り出して全文コーパスに対応づけるシステムに加え,画像を手動で適切に分類・修正するためのクロスプラットフォームな GUI 環境を開発した.これによりコーパスの継続的な保守が可能になるばかりでなく,一連の手法は他の活字化仏典をはじめ戦前期和文活字本のコーパス構築に広く応用できると考えられる.
著者
王 一凡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 人文科学とコンピュータ研究会報告
巻号頁・発行日
vol.2015, no.8, pp.1-4, 2015-05-09

大正新脩大蔵経所収 『一切経音義』 は,活字本でありながら多様な差異を有する膨大な異体字群を内包している.当資料を適切にデジタル化・UCS 符号化するためには,活字の異同を検討したうえで用字に関する体系的な理解を得る必要があるが,総字数 100 万字超,異なり活字約 3 万種と推定される本文を直接点検しながら,一貫性のある分析を行うことは困難である.したがって,活字の集計を省力化する手段が求められる.本報告では,オープンソースライブラリ OpenCV による自動処理を適用することでこれを実現する試みを紹介し,もって特定分野への汎用ライブラリの応用の可能性を提示する.