著者
山田 奨治 和泉勇治 加藤寧 柴山 守
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.52, pp.43-50, 2002-05-31
被引用文献数
1

古文書の翻刻作業の効率をたかめるためには,標準的なくずし字辞典を電子化し,検索の利便性を向上させることが有効であろう.また,デジタル化された文字画像を使って,ある文字に類似した文字を一覧的に検索することが可能になる.類似文字検索を実現するさいに鍵となるのは,文字の特徴量と文字間の類似度の設定方法である.われわれは,オフライン日本語手書き文字認識技術で使用されている文字特徴量と文字間類似度にストローク情報を加味することで,類似文字検索機能をもった電子くずし字辞典を開発した.Developing an computerized dictionary of histroical characters would be effective to improve the reading speed of historical documents. Using the digitized character images, we can also browse characters similar to an example. A key issue for implementing the search function of the similar characters is how to define the character feature and the similarity between two characters. We developed a computerized historical character dictionary by using some character features and similarities, which are used in Japanese off-line hand-written OCR technology, and using stroke information in addition to them.
著者
山田 奨治 梅田 三千雄 川口 洋 柴山 守 加藤 寧 石谷 康人
出版者
国際日本文化研究センター
雑誌
基盤研究(B)
巻号頁・発行日
1999

本研究では、つぎのような成果を得ることができた。1.古文書文字認識手法の基礎的研究古文書文字に特有な文字認識機能と文字切り出し方法について検討した。限定された文字種のデータに対して既存の日本語手書き文字認識技術を適用し、95%を超える認識率が得られることを確認すると同時に、文字切り出し及び正規化に関して新しい手法を開発した。2.古文書文字認識研究のためのデータベース作成古文書文字認識研究を推進するための、25万字に及ぶ古文書文字データベースを完成させ、その一部をすでに公開している。3.古文書解読支援システムのユーザインタフェースの開発古文書解読知識を利用した証文類の翻刻支援システムと古文書翻刻支援のための電子辞書のプロトタイプを実装した。前者はn-gram情報を使って不明文字の正解候補を提示するシステムで、利用試験の結果、その有用性が確認された。後者のプロトタイプには2種類ある。第1は、文字コードからくずし字を検索し、さらに例示された文字と類字した文字をオンラインとオフラインの文字認識技術の応用により検索する機能を持っている。第2のプロトタイプは、タブレット入力された文字と外形が似たくずし字をオフライン文字認識によって検索する機能を持っている。
著者
四井 恵介 関野 樹 原 正一郎 桶谷 猪久夫 柴山 守
雑誌
じんもんこん2010論文集
巻号頁・発行日
vol.2010, no.15, pp.211-216, 2010-12-04

近年,Google Mapsをはじめとして地理情報を扱うことが当たり前となり,様々な地理データも整備されつつある.しかしながら歴史的な地理データとしては,江戸時代はもとより明治・大正期の地理データについては,ほとんど整備されていない.本稿では明治・大正期に陸軍陸地測量部によって作成された旧5万分の1地形図をベースとして,日本全国を対象とした地名辞書および地理データの作成を行い,その作成方法,問題点等を報告する.
著者
保谷 徹 松井 洋子 柴山 守 谷本 晃久 岡 美穂子 五百籏頭 薫 原 正一郎 原山 浩介 須田 牧子 小野 将 山田 太造 横山 伊徳 佐藤 雄介
出版者
東京大学
雑誌
基盤研究(S)
巻号頁・発行日
2014-05-30

本研究では、東京大学史料編纂所の海外史料マイクロフィルム約150万コマ等をデジタルアーカイヴ化し、国内採訪史料とともに学術資源として閲覧公開をはかる。また、在外日本関係史料の調査・収集を進め、マルチリンガル、マルチアーカイヴァルなプロジェクト研究を推進する。①デジタルアーカイヴ構築の面ではマイクロフィルム全2739本からのデジタル画像データのサーバ登録を完了し、このうち約85%については簡易目録ベースでの公開を開始している。今年度は新規収集分を含めて約38万コマを公開データに追加し、累計185万コマとなった。②社会連携・地域連携の試みとして、英国外務省文書FO46(TNA原蔵)に続き、横浜開港資料館所蔵FO262(英国外務省駐日公館文書)マイクロフィルム(約20万コマ)をデジタル化した。史料編纂所と開港資料館でのFO262全体(28万コマ)の検索・閲覧を実現する。③ロシア国立歴史文書館長らを招聘した「日露関係史料をめぐる国際研究集会」をした(5月、東京本郷、日本学士院・東京大学史料編纂所で共催)をはじめ、計3回の国際研究集会を実施して研究成果を発表・発信した。④『ロシア国立海軍文書館所蔵日本関係史料解説目録2』を刊行し、ロシア国立歴史文書館所蔵東アジア三国関係史料解説目録の作成・提供を受けた。⑤各重点プロジェクトで日本関係史料調査と目録研究を実施し、とくに、ロシア両文書館での継続的な史料収集やロシア国立サンクトペテルブルク図書館での史料画像データ収集、ハワイ州立文書館での新規撮影約3500コマなど、さらに古写真史料集『高精細画像で甦る幕末・明治初期日本―ブルガー&モーザーのガラス原板写真コレクション―』(洋泉社)の刊行などの成果があった。⑥前項の海外史料調査・収集の成果に対する社会的反響は大きく、今年度も毎日新聞・読売新聞・朝日新聞・NHK報道などで大きく取り上げられた。
著者
近藤博人 松本 隆一 柴山 守 山田 奨治 荒木 義彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.6, pp.1-8, 2003-01-24
被引用文献数
8

古文書画像を対象にした翻刻支援システムの構築を行っている。本稿では、文字認識の対象となる標題画像の射影ヒストグラムから推定した探索範囲に対して、文字パターン辞書から取り出した文字パターンを探索範囲内の最大文字幅で正規化しテンプレートとしてマッチングを行う、切り出しを前提としない認識手法について述べる。本手法を用いた実験では、近世の借金等証文類を中心にした『伏見屋善兵衛文書』(約1 900点、大阪市立大学所蔵)から200標題(及び、辞書に存在しない文字、又はサンプル数の少ない文字が含まれる標題を除く151標題)を対象として認識実験を行い、翻刻結果とする候補文字の抽出を行った。結果は、認識後の候補文字の抽出における認識率は、59.5%(69.7%)の結果であった。そこで設定に失敗した探索範囲を分析し、文字パターン辞書に含まれる特異な形状をもつ文字種に対する正規化、および先頭文字における適切な探索範囲を再設定する改良によって、候補文字の抽出においては70.4%(83.1%)の結果が得られた。We have developed a transliteration assisting system which recognizes the character in the document written by calligraphic brush in the historical materials.This paper describes new recognizing scheme which tries to recognize the character without segmentation in the search area estimated from the projection histogram in a title image. A template image, which is a character pattern image extracted from the character pattern dictionary, before template-matching is normalized to be adjusted to a width of character pattern in the searching area after extracting from the dictionary. In an experiment for recognizing 200 titles(151 titles for eliminating them with few character patterns in the dictionary) in the Fushimiya Document, the recognizing rate was 59.5%(69.7%). Furthermore, in the experiment by improving the appropriate normalization for some characters with special shape, and the connection for joining divided searching areas at first character in title image, the result of the recognizing rate was 70.4%(83.1%).
著者
久留島 典子 林 譲 本郷 恵子 柴山 守 有川 正俊 山口 英男 遠藤 基郎 木村 直樹 山家 浩樹 馬場 基 山田 太造 近藤 成一 小宮 木代良 古瀬 蔵
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2014-04-01

前年度に引き続き東大史料編纂所歴史情報システム(以下、SHIPSと略記)が擁するDB群から、各DBに格納された人物情報を抽出し、人物情報レポジトリへとデータ移行を推進した。レポジトリへ移行を可能とするDB数もさらに2つ増加し、計19種へと拡大することで、総登録データ数は約42万件に達した。前近代における人物情報を総覧する環境が整いつつあり、これを軸として、地理情報・史料典拠情報・史料目録情報といった情報との連接を視野に入れたところである。SHIPS-DBから人物情報レポジトリを参照・応答するAPIについては、前年度に構築したシステムを基盤として、より詳細な応答を実現するモジュールを「新花押データベース」内に実装した。花押を記した人物を比定するために、随意にレポジトリ参照が可能となったことは、より正確な情報蓄積を進めるうえで極めて有効と言ってよい。また人物レポジトリを直接検索するためのインターフェイス(「人名典拠サービスモジュール」)が安定的に運用されるに至り、多様な検索に応答しうる環境が整備されつつある。蓄積データのシームレスな運用という観点からは、前年度に引き続き、人物情報レポジトリ総体のRDFストア化を推進し、検索結果をRDF形式で出力するためのAPIの安定運用を実践することで、オープンデータ環境への移行を目指した。地理情報レポジトリについては、外部参照用APIの運用を開始し、国立歴史民俗博物館の「荘園データベース」との連携を実現した。
著者
柴山 守 笠谷 和比古 加藤 寧 山田 奨治 川口 洋 原 正一郎 並木 美太郎 柴山 守 石谷 康人 梅田 三千雄
出版者
京都大学
雑誌
基盤研究(B)
巻号頁・発行日
2002

本研究は、古文書翻刻支援システム開発プロジェクト(HCRプロジェクト)において、手書き文字OCR技術などを発展的に応用して、古文書文字認識システムの高精度化に関する研究を行うことである。平成14-16年度の研究期間において、主に古文書文字データベースを構築すること、及び日本語文字認識アルゴリズムの適用可能な範囲と問題点を洗い直し、以下の検討課題での研究をすすめ、成果を挙げた。(1)文字切り出し法、及び正規化法について:射影ヒストグラム、文字外形の曲率などの手法を検討し、レイアウト認識では、Hough変換による行抽出方式を提案し、文字データベースの基づく実験を進めた。(2)オフライン文字認識手法について:古文書文字認識に有効と考えられる文字切り出しと文字認識を連携処理させる方法について検討した。非線形正規化手法の研究及び実験を行った。(3)オンライン文字認識手法について:くずし字検索等に適用可能なタブレット入力によるオンライン古文書文字認識手法について検討した。また、『くずし字解読辞典』の文字画像から筆順を推定する手法の研究を行った。本成果は、電子くずし字辞典として平成17年度中に刊行する予定である。(4)東京堂出版『漢字くずし方辞典』の文字パターンを入力し、オンライン検索ソフトウェアの開発を行った。これも上記の(3)に含め、刊行予定である。(5)文字認識用文字パターン辞書として、9種類の古文書文字データベースを公開した。すべてがHCRプロジェクトのホームページは,http//www.nichibun.ac.jp/shoji/hcr/からダウンロード可能である。また、公開したソフトウェアは、2種類GetAMojiマクロ(古文書翻刻中に遭遇する不明文字(ゲタ文字)の正解候補を提示する機能)、及びWeb版GetAMoji(古文書翻刻中に遭遇する不明文字(ゲタ文字)の正解候補を提示する機能のWeb版)である。
著者
林 行夫 柴山 守 土佐 桂子 長谷川 清 高橋 美和 笹川 秀夫 小林 知 増原 善之 小島 敬裕
出版者
京都大学
雑誌
基盤研究(A)
巻号頁・発行日
2008

タイ、ラオス、カンボジア、西南中国(西双版納・徳宏)での全9調査区画において771寺院の施設構成と位置情報、5500の出家者の移動データを収集し、全データを統合しタイでの移動経年データを地域情報学的手法(Hu2マップシステム、ラティスとオートマトン)で時空間解析し他区画への適応を試みた。文献から寺院と出家者の移動をデータベース化したミャンマーをふくめ地域間比較を可能とする『マッピング・データ集成I』(+1DVD)を作成した。
著者
渡辺 晃宏 馬場 基 市 大樹 山田 奨治 中川 正樹 柴山 守 山本 崇 鈴木 卓治
出版者
独立行政法人文化財研究所奈良文化財研究所
雑誌
基盤研究(S)
巻号頁・発行日
2003

奈良文化財研究所では、1961年に平城宮跡で初めて木簡を発掘調査して以来、20万点を超える木簡を調査・研究してきた。今回の研究では、この蓄積と、文字認識や情報処理に関する最新の情報学・情報工学との連携を図り、(1)木簡の情報を簡易にデジタル化するシステムの開発、(2)木簡の文字画像データベースの作成、(3)木簡解読支援データベース群の構築、(4)木簡の文字自動認識システム(OCR)の開発の4点を軸に研究を進め、木簡の文字画像データベース「木簡字典」と、木簡の文字解読支援システム「Mokkan Shop」(モッカンショップ)を開発した。「木簡字典」には、カラー・モノクロ・赤外線写真・記帳ノート(木簡の読み取り記録)の4種類の画像を掲載しており、これまでに約1,200字種、約20,000文字を収録した。「Mokkan Shop」には、今回開発した墨の部分を抽出するための画像処理手法や欠損文字に有効な文字認識システム、及び今回入力した古代の地名・人名・物品名のデータベースに基づく文脈処理モジュールを搭載し、解読の有効性を高めることができた。これにより、全体が残るとは限らない、また劣化の著しい、いわば不完全な状態にあるのを特徴とする木簡を対象とする、画期的な文字の自動認識システムの実用化に成功した。「木簡字典」と「Mokkan Shop」は、木簡など出土文字資料の総合的研究拠点構築のための有力なツールであり、当該史料の研究だけでなく、歴史学・史料学の研究を大きく前進させることが期待される。なお、今回の研究成果の公開を含めて木簡に関する情報を広く共有するために総合情報サイト「木簡ひろば」を奈良文化財研究所のホームページ上に開設した。また、WEB公開する木簡字典とは別に、『平城宮木簡』所収木簡を対象とした印刷版「木簡字典」として、『日本古代木簡字典』を刊行した。
著者
小沼 元輝 朱碧 蘭 山田 奨治 柴山 守 中川 正樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.106, no.606, pp.91-96, 2007-03-09
被引用文献数
2

本稿では,電子くずし字辞典に用いるロバストな文字認識の開発について述べる.古文書の翻刻作業を特定の専門家以外でも可能にし,その効率を高めるために,古文書で標準的に用いられるくずし字の辞典を電子化し,翻刻の利便性を向上させることが有効である.我々は,67,739種のくずし字に対する認識システムを開発した.くずし字までいかない通常の字体に対しても現有の認識システムを利用できるようにした.採用手法は,現在の文字パターンに対して一定の認識率を保証しているので,実用に耐えることを期待しているが,現実課題のサンプルパターンが少ないために,定量的な評価は今後の課題とする.
著者
岩崎 宏之 仲地 哲夫 並木 美太郎 桶谷 猪久夫 柴山 守 勝村 哲也 星野 聰 石上 英一 高橋 延匡 梅原 郁 石田 晴久
出版者
筑波大学
雑誌
特定領域研究(A)
巻号頁・発行日
1994

かつて琉球は、東アジア世界における地域間交流の要、「万国之津梁」として繁栄した。この沖縄の地理的重要性は、今日においても変るところがない。沖縄は今も日本、中国、台湾、朝鮮半島、さらには東南アジアの諸地域を包む環東シナ海世界の要である。沖縄をそのような国際社会のなかに位置付けて地域間交流の具体的様相を歴史的に考察し、東シナ海を取り囲む諸民族、いわゆるアジアニーズの歴史的変貌を明らかにすることを課題として重点領域研究「沖縄の歴史情報研究」は平成6年度より同9年度までの4年間の研究期間をもって遂行された。本研究は、領域研究の成果を取りまとめて研究成果報告書を作成し、領域研究の成果である琉球・沖縄史と環東シナ海地域間交流史に関する各種歴史情報を、学界はもとより広くインターネット等を利用して一般に公開・利用に供することを課題とした。琉球・沖縄史と環東シナ海世界の地域間交流史に関する多種多様な歴史資料をいかにして情報化するか、本領域研究では、(1)各種研究文献の統合的把握のための歴史情報の集積と検索システムの開発、(2)古文献、古文書資料など琉球・沖縄に関する歴史資料が、どこに、どのようなものがあるか、各種歴史資料の所在に関する情報の集積と検索システムの開発に関する研究、(3)本領域研究で調査・収集した琉球・沖縄史と環東シナ海世界の地域間交流史に関する基本的史料の画像情報の検索システムの開発とこれら各種資料をインターネット上で広く公開・利用するためのシステムの開発、(4)琉球王朝期の外交文書集「歴代宝案」や琉球家譜、「明実録」「清実録」「島津家琉球外国関係文書」など、琉球・沖縄史研究にとっての基本的文献の全文テキスト・データベースや環シナ海地域間交流史に関する各種の文献史料の情報化、を進めた。計画研究・公募研究の各研究班によって行なわれたこれらの情報化資料はすべて総括班に集積された。本研究課題は、これらの情報化資料の統合、ならびにその検索システムの開発等に関する各種の研究成果の取りまとめを行ない、またこれら収集・集積した各種歴史情報を筑波大学付属図書館の電子図書館サーバーからインターネットに公開・提供するための整備作業を進めた。平成10年8月には、本領域研究の全体を総括した総括班研究成果報告書「沖縄の歴史情報研究」を刊行した。また、本領域研究で収集されたマイクロフィルム等各種歴史情報は、東京大学史料編纂所、筑波大学附属図書館、大阪市立大学学術情報総合センター、沖縄国際大学南島文化研究所等に寄贈し、ひろく学界の利用に提供することにした。
著者
富田 浩章 柴山 守 荒木 義彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.42, pp.7-12, 1996-05-17
参考文献数
5
被引用文献数
4

ワークステーション()上での古文書のビデオ静止画像における画像処理による文字のセグメンテーションとパターン字書作成の手法を提案する。古文書では続け字が多く、文字毎のパターン字書は作成することが困難である。そこで画像処理、特に2値化処理により文字の特徴、ならびに文字の分割を明確にし、文字毎のパターン字書を得る。また、2値化レベルの変動にともなうセグメンテーションの変化についても検討、考察する。We propose a method of character segmentation and pattern dictionary using image processing in a static video image of "Komonjo" on the workstation. In the "Komonjo" there are many characters connecting with others, so it is difficult to construct a pattern dictionary of every character. So using binary level control, characteristics of character and character segmentation become clear and we get the pattern dictionary of every character. We examine segment variation by a change in binary level.
著者
貴志 俊彦 陳 來幸 石川 禎浩 武田 雅哉 川島 真 柴山 守 松本 ますみ 孫 安石 大澤 肇 小林 聡明 谷川 竜一 菊地 暁 富澤 芳亜 泉水 英計 西村 陽子 李 梁
出版者
京都大学
雑誌
基盤研究(A)
巻号頁・発行日
2013-04-01

本共同研究では、近100 年間に東アジア域内で起こった歴史的事件、あるいは時代の画期となるトピックをとりあげ、それぞれの局面で登場した非文字史料がはたした役割とその受容者の解釈を検討した。国内外における広範な調査と成果発表にあたっては、複数の地域で製作された非文字史料を比較対照するとともに、(a)図像解釈学的分析、(b)語彙分析による情報処理、(c)コミュニケーション・パターン分析等を導入して、紛争・協調の時代イメージと非文字史料との因果関係を明らかにした。
著者
柴山 守
出版者
京都大学
巻号頁・発行日
2005-05

平成14-16年度科学研究費補助金(基盤研究(B)(1))研究成果報告書 課題番号:14380184 研究代表者:柴山守 (京都大学東南アジア研究所 教授)
著者
後藤 真 柴山 守
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.11, no.4, pp.2-16,46, 2002
参考文献数
14
被引用文献数
3 3

正倉院文書は、東大寺の正倉院に伝来した8世紀の文書群の総称である。本文書は、背面再利用と19世紀初頭からの「整理」作業のため、その奈良時代の帳簿の形態が著しく損なわれ、論理構造と物理構造の差異という特徴をもつ。この帳簿形態の復原過程を関連史料の各々の実体を含めてXML/XSLT(eXtensib1e Markup Language / eXtensible Stylesheet Language Transformations)で記述する手法を提案する。筆者らは、この復原過程における関連史料の各々の実体を統合化するための構造化ルールをXML/XSLTを用いて記述し、復原研究を支援するシステムを構築した。本システムでは、関連史料が構造化ルールのXSLT記述に基づいて階層構造化され、中問表現としてのXML文書が生成される。また、構造化ルールからの例外により新たな事象の発見が可能となり、新たな知見を得る機会になる。生成されたXML文書は、論理構造を復原するXSL(extensible Stylesheet Language)に基づき、Webブラウザ上に表示され、またWordマクロ機能により物理構造が反映された「短冊」として復原できる。本論文では、帳簿形態の復原過程をXML/XSLTで記述する手法、及び実現したシステムの有効性について考察する。