著者
美馬 秀樹 丹治 信 増田 勝也 太田 晋
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2012-CH-95, no.4, pp.1-8, 2012-07-28

本研究の目的は,1921年に創刊された岩波書店『思想』90年分(約1000号,約8600論文,約16万ページ)を題材とし,電子化・構造化を行うことで,a)『思想』という知の集積,分析により20世紀日本の哲学・思想史を明らかにすること,b)分析結果の学部・大学院教育での活用の方法論構築を進めること,及びc)歴史的文献テキストの電子化,アーカイブ化に関する方法論を確立すること,である.本稿では,上記『思想』のデジタルアーカイブ化とテキストマイニングに関し,『思想』雑誌の電子化・構造化の手順とその問題点を報告し,特に,OCRによる文字認識精度の向上,自動化・システム化に向けたレイアウト解析ソフトウェアの開発について,現状の取り組みと予備的に行った実験評価について報告する.