著者
田島 公 山口 英男 尾上 陽介 遠藤 基郎 末柄 豊 石上 英一 藤井 譲治 金田 章裕 西山 良平 坂上 康俊 西本 昌弘 本郷 真紹 加藤 友康 武内 孝善 田良島 哲 渡辺 晃宏 石川 徹也 石川 徹也 山口 和夫 藤原 重雄 稲田 奈津子 遠藤 珠紀 三角 洋一 月本 雅幸 吉川 真司 小倉 慈司 綾村 宏 杉橋 隆夫 桃崎 有一郎 島谷 弘幸 猪熊 兼樹 馬場 基
出版者
東京大学
雑誌
学術創成研究費
巻号頁・発行日
2007

禁裏(天皇家)や主要公家文庫収蔵史料のデジタル画像約100万件、東山御文庫本・伏見宮家本の1画像毎の内容目録約20万件を作成し、編纂所閲覧室での公開準備を進めた。木簡人名データベースと漢籍の受容を網羅した古代対外交流史年表を公開した。『禁裏・公家文庫研究』3・4、研究報告書4冊等を刊行し、禁裏・主要公家文庫の家分け蔵書目録を公開した。「陽明文庫講座」「岩瀬文庫特別連続講座」等市民向け公開講座を約百回開催し講演内容の一部を一般向けの本として刊行した
著者
石川 徹也 北内 啓 城塚 音也
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.4, pp.3-18, 2008-10

本研究の目的は、歴史資料(史料)を対象に歴史知識の構造化の基盤となる「歴史オントロジー」を構築するシステムを開発し、広く提供することによって歴史学の発展に寄与することにある。この目標を具体的に検証するために、昭和15年に時の帝国学士院において始められた明治前日本科学史の編纂成果である『明治前日本科学史』(刊本全28巻)の全文を日本学士院の許諾の下に電子化し、明治前の日本の科学技術を創成してきた科学技術者に関する属性および業績の情報を抽出することにより、前近代日本の人物情報データベースの構築を試みる。人物の属性として人名とそれに対する役職名と地名を、人物の業績として人名とそれに対する書名を、いずれもパターンマッチングなどのルールベースの手法によって抽出する。『明治前日本科学史総説・年表』を対象とした性能評価を行った結果、人名、人名とその役職名、および人名とその地名について、F値で0.8を超える結果が得られた。
著者
木谷強 小川 泰嗣 石川 徹也 木本 晴夫 中渡瀬 秀一 芥子 育雄 豊浦 潤 福島 俊一 松井 くにお 上田 良寛 酒井 哲也 徳永 健伸 鶴岡 弘 安形 輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.2, pp.15-22, 1998-01-19
被引用文献数
33

日本語情報検索システム評価用テストコレクションBMIR-J2は、情報処理学会データベースシステム研究会内のワーキンググループによって作成されている。BMIR-J2は1998年3月から配布される予定であるが、これに先立ち、テスト版としてBMIR-J2が1996年3月からモニタ公開された。J1は50箇所のモニタに配布され、多数の研究成果が発表されている。BMIR-J2では、J1に対するモニタユーザからのアンケートの回答と、作成にあたったワーキングループメンバの経験をもとに、テストコレクションの検索対象テキスト数を大幅に増やし、検索要求と適合性判定基準も見直した。本論文では、BMIR-J2の内容とその作成手順、および今後の課題について述べる。BMIR-J2, a test collection for evaluation of Japanese information retrieval systems to be released in March 1998, has been developed by a working group under the Special Interest Group on Database Systems in Information Processing Society of Japan. Since March 1996, a preliminary version called BMIR-J1 has been distributed to fifty sites and used in many research projects. Based on comments from the BMIR-J1 users and our experience, we have enlarged the collection size and revised search queries and relevance assessments in BMIR-J2. In this paper, we describe BMIR-J2 and its development process, and discuss issues to be considered for improving BMIR-J2 further.
著者
石川 徹也 北内 啓 城塚 音也
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.15, no.4, pp.3-18, 2008-09-21
被引用文献数
2

本研究の目的は、歴史資料(史料)を対象に歴史知識の構造化の基盤となる「歴史オントロジー」を構築するシステムを開発し、広く提供することによって歴史学の発展に寄与することにある。この目標を具体的に検証するために、昭和15年に時の帝国学士院において始められた明治前日本科学史の編纂成果である『明治前日本科学史』(刊本全28巻)の全文を日本学士院の許諾の下に電子化し、明治前の日本の科学技術を創成してきた科学技術者に関する属性および業績の情報を抽出することにより、前近代日本の人物情報データベースの構築を試みる。人物の属性として人名とそれに対する役職名と地名を、人物の業績として人名とそれに対する書名を、いずれもパターンマッチングなどのルールベースの手法によって抽出する。『明治前日本科学史総説・年表』を対象とした性能評価を行った結果、人名、人名とその役職名、および人名とその地名について、F値で0.8を超える結果が得られた。Our goal of this study is to contribute to the progress in historical science by developing a system for building a historical ontology from historical materials and making it available to the public. We digitize all the books of "Meiji-mae Nippon Kagaku-shi" ( Pre-modern Japanese Histroy of Science and Technology ) published by Nippon Gakushiin ( The Japan Academy ), and extract the attribution and the works in pre-modern Japanese history. We extract the names of persons, positions, places, and books as the attribution and the works of persons by pattern matching. The experimental results show that the F-measures for the names of persons, positions, and places are over 0.8.
著者
林 譲 横山 伊徳 加藤 友康 保谷 徹 久留島 典子 山家 浩樹 石川 徹也 井上 聡 榎原 雅治 遠藤 基郎 大内 英範 尾上 陽介 金子 拓 木村 直樹 小宮 木代良 近藤 成一 末柄 豊 藤原 重雄 松澤 克行 山田 太造 赤石 美奈 黒田 日出男 高橋 典幸 石川 寛夫
出版者
東京大学
雑誌
基盤研究(S)
巻号頁・発行日
2008-05-12

東京大学史料編纂所が60年間にわたって収集・蓄積した採訪史料マイクロフィルムをデジタル化し、ボーンデジタルによる収集の仕様を確立し、一点目録情報などのメタデータを付与したデジタルデータを格納するアーカイヴハブ(デジタル画像史料収蔵庫)を構築し公開した。あわせて、デジタル画像史料群に基づく先端的プロジェクト・歴史オントロジー構築の研究を推進し、研究成果を公開した。
著者
満 都拉 藤井 敦 石川 徹也
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.8, pp.2733-2745, 2006-08-15

モンゴル語には,モンゴル文字を用いて表記する伝統的モンゴル語とキリル文字を用いて表記する現代モンゴル語の2 種類がある.伝統的モンゴル語は主に中国の内モンゴル自治区で使われており,現代モンゴル語は主にモンゴル国で使われている.両方のモンゴル語を読み書きができる人は少ないため,内モンゴル自治区とモンゴル国で情報の交換が困難である.しかし,2 つのモンゴル語は音声言語としてはほとんど同じであり,発音に基づいて文字単位の対応を付けることができる.そこで,本論文は伝統的モンゴル語と現代モンゴル語を双方向的に翻字する手法を提案する.具体的には,一方のモンゴル語で書かれたテキストを文字単位で他方のモンゴル語に変換する.また,正字法を適用し,文字単位では形式化が困難な表記上の違いに対処する.新聞記事を用いた評価実験の結果,現代モンゴル語から伝統的モンゴル語への翻字精度は80.6%,伝統的モンゴル語から現代モンゴル語への翻字精度は85.5%であった.また,本手法による自動翻字の結果に誤りが含まれてもテキストの内容理解には支障がなかった.
著者
竹内 正広 早坂 太一 大野 亙 加藤 弓枝 山本 和明 石間 衛 石川 徹也
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.3Rin209, 2019 (Released:2019-06-01)

国文学研究資料館により整備されている歴史的典籍データベースを有効活用することは,人文科学のみならず,自然科学系分野を融合させた研究の展開にもつながる.しかしながら多くの研究者にとっては,それらに書かれている文字が「くずし字」であることが障壁となる.本研究では,ディープラーニングによるくずし字認識モデルを応用し,小型で比較的安価なシングルボードコンピュータRaspberry Piを用いて,カメラで撮影した見開きの古典籍画像から,自動で1文字ずつのくずし字領域を検出し,それらの認識を可能とする組み込みシステムを開発した.既にWWWアプリケーションとして実装されている先行研究と比較して,認識するのにかかる時間や精度はほぼ変わらず,高性能なコンピュータを用いなくても,Raspberry Piのようなシングルボードコンピュータで問題なく動作することを示すことができた.これを発展させることで,研究者のみならず,スマートフォンを持ち込むことができない小・中学校や,普段モバイル機器を持ち歩かない高齢者の方々でも,くずし字に触れたいときにそれを支援するシステムを実現することができると考えられる.
著者
長尾 眞 原田 勝 石川 徹也 谷口 敏夫 澤田 芳郎 吉田 哲三 柿元 俊博
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.38, no.3, pp.191-206, 1995
被引用文献数
5

本論文は電子図書館システムAriadneに関する5編の論文の最初のものである。まず電子図書館が従来の図書館とどのように違うものであるかを述べ,電子図書館の一つの理想の姿がどのようなものであるかを具体的に説明した。さらに,それを具体的に実現するために持つべき機能の概要,システム構成,ユーザ·インタフェース,システム構築支援機能,ネットワーク構成などについて詳しく述べた。他の4編の論文で詳細が述べられている機能などについては,簡単に触れるだけにとどめた。
著者
黄 海湘 藤井 敦 石川 徹也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.174, pp.49-54, 2006-07-28
参考文献数
10

外国語の固有名詞や専門用語を翻字するときに,日本語や韓国語ではカタカナやハングルなどの表音文字を用いる.しかし,中国語では漢字を用いて翻字する.漢字は表意文字であるため,音は同じでも漢字によって与える印象が異なる.本研究は,中国への翻字において適切な漢字選択するために,発音だけでなく,翻字対象の印象や種別を考慮する手法を提案する.評価実験によって提案手法の有効性を示す.
著者
関 和広 藤井 敦 石川 徹也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.3, pp.63-85, 2002-07-10 (Released:2011-03-01)
参考文献数
26
被引用文献数
1 2

日本語では, 読み手や聞き手が容易に推測できる語は頻繁に省略される. これらの省略を適切に補完することは, 自然言語解析, とりわけ文脈解析において重要である. 本論文は, 日本語における代表的な省略現象であるゼロ代名詞に焦点を当て, 確率モデルを用いた照応解析手法を提案する. 本手法では, 学習を効率的に行なうため, 確率モデルを統語モデルと意味モデルに分解する. 統語モデルは, ゼロ代名詞の照応関係が付与されたコーパスから学習する. 意味モデルは, 照応関係が付与されていない大規模なコーパスを用いて学習を行ない, データスパースネス問題に対処する. さらに本手法では, 照応解析処理の精度を高めるために確信度を定量化し, 正解としての確信が高いゼロ代名詞のみ選択的に結果を出力することも可能である. 新聞記事を対象にした照応解析実験を通して本手法の有効性を示す.
著者
小川 泰嗣 木本 晴夫 田中 智博 石川 徹也 増永 良文 芥子 育雄 豊浦潤 福島俊一 宮内 忠信
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS)
巻号頁・発行日
vol.1994, no.86, pp.145-152, 1994-10-13
被引用文献数
4

日本語を対象とした情報検索に関する研究開発では、性能(検索精度)の評価に開発元独自の方法が用いられてきた。このような状況に対し、われわれは「情報検索システム評価用データベース構築ワーキンググループ」を設置し、情報検索手法・システムを公正かつ客観的に評価するためのベンチマーク構築を目指している。本稿では、情報検索システムモデル・対象データの特性とサンプル件数・評価法・作成手順などベンチマーク構築に関する現在までの検討内容を報告する。In the research and development of Japanese information retrieval systems, different research groups have been using different measures to evaluate their system because there is no standard or benchmark for them. Our working group in IPSJ-SIGDBS has been developing such a benchmark, and in this report we will present several of its characteristics: IR models, the features and size of texts and queries, evaluation methods, and the development procedure of the benchmark.
著者
宮沢 厚雄 石川 徹也
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.38, no.2, pp.115-124, 1995-05-01 (Released:2008-05-30)
参考文献数
13
被引用文献数
1

今日,図書館をとりまく環境が大きく変わりつつある。本論は先ず,これまでの人類の歴史を大きく三つに区分して図書館の変遷を概観した。神という普遍性に支配され聖書を頂点とする正典主義に基づく「中世ヨーロッパの図書館」,世界のあり様を形式的な論理規則に集約しようとした近代自然科学と同様に目録カードの集積が図書館の全体だとした「近代ヨーロッパの図書館」,コンピュータと遠隔地通信技術の発達により情報が新しい概念となった「現代の図書館」である。以上の分析を踏まえながら,高度情報化時代の図書館システムのあり方を考察し,個々の人間における「知」の営為との関わり合いを「これからの図書館」の課題として提言した。
著者
宇田 隆幸 藤井 敦 石川 徹也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.3, pp.105-112, 2004-01-16
被引用文献数
3

情報推薦システムは,ユーザの嗜好に関する情報を用いて新規情報に対する嗜好を予測し,嗜好に合うアイテムを提示する.協調フィルタリングに基づくシステムは,アイテムの内容解析をせず,他のユーザからの評価(アイテム-ユーザ評価マトリクス)を用いて推薦アイテムを決定する.対象ユーザと嗜好が似たユーザが好むアイテムは優先され,嗜好が異なるユーザが好むアイテムの優先度は下がる.ユーザがアイテムを選ぶたびに嗜好情報が更新されるため,検索キーワードの入力が必要ない.しかし,評価値疎ら問題や再生起問題により,未評価の(推薦対象にならない)アイテムが多く存在する.本研究は,ユーザの評価とアイテム間の類似度を併用して,推薦対象アイテム数を増やす「擬似投票方式」を提案する.新聞記事を対象にした評価実験の結果,本方式によって,推薦精度を落とすことなく推薦対象アイテム数を増やすことができた.Recommender systems utilize user profiles to predict his/her preference for unseen information items, and present preferable items. The collaborative filtering (CF) method does not analyze the content of items, but utilizes user rating (an item-user matrix) to determine recommending items. CF-based systems (do not) favor items rated highly by the users whose preference is (not) similar to that of a target user. Users can update their profiles by selecting items and do not need to submit search keywords. However, due to the sparsity and recurring startup problems, many items are not rated and thus cannot be recommended to users. To resolve these problems, we propose "pseudo-voting method", which increases the number of rated items by integrating user rating and content-based item similarity. We show the effectiveness of our method by means of experiments.