著者
須永 哲矢 堤 智昭 高田 智和
雑誌
じんもんこん2011論文集
巻号頁・発行日
vol.2011, no.8, pp.381-388, 2011-12-03

言語研究資料としての電子化テキストを作成するという立場から,明治前期雑誌の異体漢字処理の在り方を検討した.現行の国内規格であるJIS X 0213 の文字集合および包摂規準が,近代の活字の電子化に対してはどの程度有効かを,明治初期の雑誌『明六雑誌』の異体漢字を例に検証した.JIS X 0213 文字集合によって『明六雑誌』の漢字の98%以上が表現できるが,言語資料として電子化テキストを使う場合には,2%近くが外字処理に回るのは望ましくない.そこで外字処理をさらに減らす方法として,包摂規準の拡張や別字での代用を提案し,それらを用いて処理した場合の効果も検証した.

言及状況

はてなブックマーク (1 users, 1 posts)

[漢字][文字コード][論文]

Twitter (2 users, 2 posts, 1 favorites)

明治の活字に関する〈須永哲矢さんの仕事〉https://t.co/x2ELhBy3W7 というのが「明治前期雑誌の異体漢字と文字コード」https://t.co/IAEIkUnjU4 のことだとすると対象が『明六雑誌』だけだから印刷所も活字サイズも一定なので方針不要と思った記憶。
国語研の明六雑誌コーパスで包摂ルールの提示をしていて、包摂ルールの内容というよりも、個別にルールを明示するという点であれがまあ現実的な落としどころだなと思った。たとえばこの辺とか。⇒ http://t.co/9nbKjUE5t8

収集済み URL リスト