著者
須永 哲矢 堤 智昭 高田 智和
雑誌
じんもんこん2011論文集
巻号頁・発行日
vol.2011, no.8, pp.381-388, 2011-12-03

言語研究資料としての電子化テキストを作成するという立場から,明治前期雑誌の異体漢字処理の在り方を検討した.現行の国内規格であるJIS X 0213 の文字集合および包摂規準が,近代の活字の電子化に対してはどの程度有効かを,明治初期の雑誌『明六雑誌』の異体漢字を例に検証した.JIS X 0213 文字集合によって『明六雑誌』の漢字の98%以上が表現できるが,言語資料として電子化テキストを使う場合には,2%近くが外字処理に回るのは望ましくない.そこで外字処理をさらに減らす方法として,包摂規準の拡張や別字での代用を提案し,それらを用いて処理した場合の効果も検証した.
著者
須永 哲矢 堤 智昭 高田 智和
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2012, no.2, pp.1-6, 2012-07-28

国内規格JIS X 0213に定める「漢字の字体の包摂規準」の,明治前期漢字活字に対する有効性を,当時の雑誌『明六雑誌』の電子化を通じて検証した.『明六雑誌』第1号,第26号の2冊,計7,442漢字を対象に調査を行ったところ,JIS X0213文字集合のみで処理した場合のカバー率は86%であった.これに対し包摂規準を適用して処理を行うと,199設定されている包摂規準のうち81が実際に使用され,カバー率も98%まで向上することが確認できた.The domestic standard for kanji character codes, JIS X 0213, prescribes the "unification standard of kanji character forms", a regulation to be applied to kanji variants. The paper examines the effectiveness of the unification standard over the printing types of the early part of the Meiji period, using "Meiroku Zasshi" as a sample. In the course of construction of an electronic corpus of "Meiroku Zasshi", we conducted research upon 2 issues (1st and 26th). Among 7,442 kanji printing types included in the sample, 86% initially correspond to the character set of JIS X 0213. When the unification standard is applied to the processing, with 81 out of the total 199 detailed regulations being employed, another 12% printing types are newly processed, increasing the total processing rate to 98%.