著者
守岡 知彦
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2008, no.73(2008-CH-079), pp.17-22, 2008-07-18

古典中国語 (漢文) 電子テキストの蓄積が進む中、自然言語処理技術の重要性は高まって来ているが実装は少ない。本論文では、MeCab を用いた古典中国語用形態素解析器のプロトタイプについて概説するとともに、本格的な古典中国語文法コーパス作成のためのワークフローについて考察する。
著者
大出真 蔡東生 池辺 八洲彦
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2000, no.8(1999-CH-045), pp.65-72, 2000-01-21

我々は語学教育の改革は辞書の改革なくして有り得ないという立場から、英単語学習者に役立つハイパー英単語辞書データベースの研究を推進している。今回の研究では、印欧語根を利用した英単語学習方法について注目しており、本稿では具体的な学習例と印欧語根の判明率から、印欧語根を用いたハイパー英単語辞書が英単語学習のために有用であることを示すとともに、試作したウェブ上で利用できるハイパー英単語辞書について説明する。
著者
野村 英登
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2005, no.76(2005-CH-067), pp.63-68, 2005-07-29

電子出版でもっとも成功しているのが電子辞書であると言われているが、IC電子辞書、CD-ROM、オンラインなどのどの媒体でも、漢和辞典などの中国古典の研究では必須のコンテンツが必ずしも十分でない。他方、XMLを利用した電子出版のフォーマットが世に出はじめ、汎用性のあるデータ作成が可能な状況が実現しつつあるので、専門性の高い多漢字電子辞書コンテンツ作成を研究者が関わって行う可能性が見えてきたように思われる。
著者
福田 智子 南里 一郎 竹田 正幸
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2002, no.8(2001-CH-053), pp.47-54, 2002-01-26

要旨.古典和歌データから同一文字列を2回以上含む歌を抽出し,その分析を行う.『万葉集』と,『古今集』から『新続古今集』までの勅撰集との,あわせて22の歌集に載る約40,000首から,5字以上の同一文字列が2回含まれる歌を48首抽出した.そして,それらの用例の,歌集ごとの分布状況や,表現効果の特質を考察した.その結果,『万葉集』に見られる7字の同一文字列反復が『古今集』には皆無であること,『新古今集』以降の勅撰集には5字以上の同一文字列反復の例はまずなく,唯一例外なのが『玉葉集』であることなどが,具体的に明らかになった.
著者
白須 裕之
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2008, no.8(2008-CH-077), pp.9-16, 2008-01-25

本稿は中国古典文献(古籍)、特に抄本、版本等のテキストを電子化することを前提に、その概念モデルを提出する。書物には論理的な文書構造と共に物理構造が存在し、更に古籍には現代の書物と異なる物理構造が存在する。このような複数の構造を捉えるために、本稿ではタグのOverlap問題を扱える多構造文書なる概念を提出する。これはConcurrent Markupのデータモデルの上に、複数の木構造を定義できるようにしたものである。更に校勘情報のために必要な概念についても議論する。
著者
上田 勝彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.8, pp.27-34, 2008-01-25

問題となる文書中の筆跡からその筆者を特定する,いわゆる筆跡鑑定,筆者照合,筆者識別などの研究は,個々の筆者は他人の筆跡とは異なる安定した筆跡(筆跡個性)を持っているという仮説に基づいている.この仮説は,長年にわたる多数の事例研究をとおして経験的に広く認められている.しかし鑑定結果の法科学的証拠としての信頼性を高めるためには,科学的・定量的に厳密に検証されなければならない.著者らは先にこのような立場から日本字署名を対照として,変動エントロピーと呼ばれる量と筆者照合実験によって筆跡個性の存在を検証する方法を提案した.本報告では,この手法を日本字の通常筆跡に適用した結果について述べる.さらに,この結果と先の署名筆跡に対する結果とを比較して,筆跡個性の表れ方の字種依存性と筆者依存性について検討し,筆跡個性に関する仮説の成立要件を考察する.The handwriting analysis to determine the writer, such as so-called handwriting examination, writer verification and writer identification is based on the hypothesis that each individual person has consistent handwriting that is distinct from the handwriting of other individuals. This hypothesis has been accepted subjectively through many case studies. However this hypothesis must be established with scientific and quantitative rigor in order to raise its admissibility as forensic evidence. From this point of view, the author proposed a method to validate individuality of Japanese signature by variation entropy and a writer verification experiment previously. This report describes the result that applied this method to normal Japanese handwriting. The author discusses on difference of a property of individuality expression between normal handwriting and signatures. The author discusses also a condition to which the hypothesis about handwriting individuality is accepted.
著者
佐藤大和
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2009, no.4(2009-CH-081), pp.17-24, 2009-01-16

本論文は,奈良時代の「万葉集」,平安時代の「源氏物語」,鎌倉・室町時代の「平家物語」,さらに近代の文芸資料である「夏目漱石の講演」等を素材として,1千年以上に渡る日本語の歴史における音節の統計的性質に関して述べたものである。分析に必要なテキストコーパスの作成,音韻・音節の分析法,およびその統計的特性が報告される。音節の分布特性は,4時代ともほぼ同一特性の指数分布に従うことが明らかとなり,これが日本語における普遍的特性であることが示される。また,指数分布の形状を決めるパラメータ(記号論的温度)と音節の平均情報量(エントロピー)との関連が,情報理論的側面から議論される。
著者
安澤秀一
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2001, no.67(2001-CH-051), pp.17-24, 2001-07-13

SGML-XML の応用形としての Encoded Archival Description EAD は、1995年に発表された Alpha Version に続いて、翌1996年に Beta Version が発表された。以来、先行のさまざまな検索手段作成の基準、例えば MARC、および MARC AMC、またアングロ・アメリカン目録作成規則AACR2、あるいはアーカイヴズ・個人記録・手稿APPM、さらにISAD(G)・ISAAR(CPF)などとの交差を考慮しながら、インターネット上の公開に対応できるように、マークアップ言語SGML-XMLの応用形としてのEAD原案が検討された。アメリカ議会図書館とSAAの共同作業成果であるEADの適用事例がハーバード大学、イエール大学、議会図書館、ヴァージニア大学から発表された(1997アメリカンアーキヴィスト60巻4号)。さらに1999年にSAAのEADワーキンググループによるアプリケーション・ガイドラインやTAG Library がSAAから公刊された。本報告はEADタグの在りようを紹介することを目的としている。
著者
川口 洋 上原 邦彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.110, pp.49-54, 1996-11-15
被引用文献数
9

本稿では、江戸時代における人口分析システムを開発するための第一段階として、「宗門改帳」古文書画像データベースの構築した。「宗門改帳」(しゅうもんあらためちょう)とは、17世紀末から19世紀中期の期間に、原則として集落単位に毎年作成されていた人口史料の総称である。従来の研究方法では十分保障されていなかった、史料読解から文字データ入力に至る研究過程の再現性を、古文書画像データと文字データの両者を同一画面上で検索・表示することによって確保した。さらに、史料読解から文字データ入力までの作業過程を短縮するために、年齢を表記した漢数字を対象として、古文書文字の自動認識に関する実験を行った。We have constructed the image database for analyzing the Japanese religious investigation register so called "Shumon-Aratame-Cho(SAC)". This database is planned in order to make the process of outputting the demographic statistics from the SAC data easier and faster, to guarantee the quality of the process, to preserve the present condition of the SAC data and to share the sourse data with historical demographers. We also experimented the character recognition on age data which are expressed in handwritten old Chinese figures.
著者
木原 利幸 杉本 和敏
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.1990, no.72, pp.1-6, 1990-09-14

平成元年度のNHK大河ドラマ「春日局」において、コンピュータ・グラフィクス()を用いて、当時の江戸城を紹介した。CGが未来の創造物や実存しないものを表現するのに有効であるばかりでなく、過去に存在したものを復元するにも大変優れた手法であることを示すことができた。ここでは、江戸城の復元のためのモデリング技術およびレンダリング技術について紹介すると共に、CGによる過去の構築物の復元に関して多少の考察をする。We faithfully restored the Edo castle of about 380 years ago by computer graphics, and introduced it at the "kasuga-no-tsubone" NHK TV series program in 1989. We showed that computer graphics was an effective and useful method for representing historical objects as well as imagined or fancy objects. This paper describes modeling and rendering technologies for the restoration of the Edo castle, and give some considerations in the restoration of historical objects by CG.
著者
富田 浩章 柴山 守 荒木 義彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.42, pp.7-12, 1996-05-17
参考文献数
5
被引用文献数
4

ワークステーション()上での古文書のビデオ静止画像における画像処理による文字のセグメンテーションとパターン字書作成の手法を提案する。古文書では続け字が多く、文字毎のパターン字書は作成することが困難である。そこで画像処理、特に2値化処理により文字の特徴、ならびに文字の分割を明確にし、文字毎のパターン字書を得る。また、2値化レベルの変動にともなうセグメンテーションの変化についても検討、考察する。We propose a method of character segmentation and pattern dictionary using image processing in a static video image of "Komonjo" on the workstation. In the "Komonjo" there are many characters connecting with others, so it is difficult to construct a pattern dictionary of every character. So using binary level control, characteristics of character and character segmentation become clear and we get the pattern dictionary of every character. We examine segment variation by a change in binary level.
著者
冨安 寛 廣田 和也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.80, pp.37-42, 1997-08-29
参考文献数
9
被引用文献数
1

コンピュータの小型化・高性能化により、これまで関係が薄いと思われていた人文科学の各分野においてもコンピュータ利用の試みが始まっている。今後、これらの試みをより一般的な教育アプリケーションや博物館・美術館における展示システムに発展させるためには、領域固有のデータベース構築やヒューマンインタフェース等、多くの課題を解決していかなければならないと思われる。筆者らは、人文科学情報をコンピュータで扱う際に生じる問題を抽出し、またコンピュータ利用の可能性を探るために歴史総合図録をデジタル化し、その高度利用を図る試みとして"Digital Atlas of History"の開発を行っている。本稿では、その概要と特に今回開発したデジタル歴史地図について述べる。In last several years, many researches which apply compuers to the humanities have started because personal computers have been more compact and higher-performance. However, to put these experiments into educational applications or display-system in museums, there are many problems to be solved. We have started a development of Digital Atlas of History to grasp problems and potentials in applications for the humanities.
著者
兎内 勇津流
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.1995, no.50(1995-CH-026), pp.19-24, 1995-05-25

昨年9月にNIFTY?Serveの生涯学習フォーラム内に発足した図書館フォーラム会議室は、これまで1600発言近い書き込みがあるなど、盛況である。パソコン通信内で図書館をキーワードとしたオープンな交流の場はこれがはじめてと思われるが、その現状を報告するとともに、その背景、有効性と限界、将来の展望について考えてみたい。
著者
原 正一郎
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2002, no.73(2002-CH-055), pp.51-56, 2002-07-26

本稿では、古文書OCRの前処理として必須である、つづき文字を切り出す手法について提案する。提案する方法では、まず簡単なフィルタ処理(色に基づき文字の候補となるピクセルを抽出するカラーフィルタ、ゴマ塩雑音などの除去フィルタ、カラー画像を白黒階調さらに2値化するフィルタ)により、雑音の少ない良好な2値画像を作成する。次に周辺分布からページごとの平均文字サイズ、縦書き・横書きに関するレイアウト情報を抽出する。文字はこれらの情報に基づいてピクセルから組み立てる。つまり隣接するピクセルを集めて文字のセグメントを生成し、次いで近傍のセグメントを集めて文字あるいはつづき文字を生成する。つづき文字の切り出しは文字輪郭上の相対する凹部分を結ぶ線に沿って行う。本法の特徴は、適切な凹部分を画像の多重解像度解析に基づいて発見するところにある。
著者
師 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.51, pp.31-37, 2005-05-27
被引用文献数
4

デジタルアーカイブの目的として「文化の次世代への正しい継承」ということがしばしば言われる。しかし、文化が変化を前提としていると考えれば、デジタルアーカイブによって「次世代への正しい継承」はできず、場合によってはそれを阻害する可能性もある。また、デジタルアーカイブによる「次世代への正しい継承」という言説の背景には、研究者やデジタル技術による特定イデオロギーへの権威付けや、国家政策との関連が見出される。デジタルアーカイブは、むしろ、このような運動を相対化する方向で活用されるべきではないだろうか。``The right succession to the next generation of culture'' is often said as a purpose of digital archives. However, given that culture always changes, ``the right succession'' can not be attained by digital archives, but may be disturbed in some cases. Moreover, investigating the background of ``the right succession,'' we can find the authorization to the specific ideologies by the researchers or the digital technologies, and relation with a national policy. We suggest that digital archives should be developed and utilized in order to deconstruct such movements.
著者
吉岡 亮衛
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.6, pp.17-24, 2001-01-19
参考文献数
6
被引用文献数
2

本論は、コンピュータによる俳句の研究を行うために必要な俳句データベースと、俳句を分析するために必要な季語データベースの本格的な構築に先立ち、季語データベースの構造とデータベースに収録すべき季語の数を検討した結果を報告するものである。具体的には、3種類の季語を集めた本を材料として、(1)共通に存在する季語、(2)すべての見出し語である季語、(3)見出し語の異称・別名・同類・対象語を含めたもの、の3通りの季語集合を作り、それらを用いて、サンプルとして抽出した俳句の季語を特定することを試みた。その結果、先の研究で1 542語の季語で448句の俳句を分析した結果、全体の約65%の俳句の季語を特定することができたものが、2 901語の季語により344句(76.8%)、6 709語で399句(89.1%)、約2万語で420句(93.8%)まで、判定率が向上することが見いだされた。また、最後まで季語が特定出来なかった俳句について、改善の方策を検討した。This paper reported the investigated results about the amount of Kigo in Kigo-database. This investigation is needed for building Kito-database, that is useful to analyse the Haiku. A Haiku-database and a Kigo-database are both needed to study Haiku by computer. Concretely, tree types of Kigo-group are made from three different books of "Kigo". The first one is the common Kigos in books, the second one is the all different Kigos in books, and in the third one are included more broader terms in the book "Shinhan-Kiyose". As a result of the Kigo matching test of all 448 Haikus, at the last time 1,542 Kigos hit about 65%. Then 2,901 Kigos hit 344 Haikus (76.8%), 6,709 Kigos hit 399 Haikus (89.1%), and about 20,000 Kigos hit 420 Haikus (93.8%). The specification rate of Kigo is improved by Enlarging the Kigo-database. At last the reasons of unmatched Haikus are discussed.
著者
前川 武
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.78, pp.55-62, 2007-07-27

日本語の文献に関する研究においては、本文テキストのデータベース化と語彙索引の電子化が進めばさまざまな角度からの計量的分析が可能になる。古典文学の分野では、本文テキストのデータベース化は進んでいるが、索引の電子化は、なかなか進んでいないのが現状である。このような現状の中で、村田菜穂子氏は、古代語の形容詞と形容動詞について、単なる作品における語の出現度数、用例だけではなく、詳細な情報を付加した語彙表を作成し、様々な計量分析を行っている。今回、村田氏の作成したデータに基づき、中古の散文資料22作品について、その語彙の使用状況から作品間の類似度を測定する試みを行った。In the research on a Japanese document, if the computerization of a full text database and glossarial index advances, measurement analysis from various angles becomes possible. The computerization of the glossarial index is not advancing easily, though that of a full text database is advanced. In such a situation, Nahoko Murata makes the glossarial index of the adjective and the adjective verb of an ancient word, and is doing various analyses and consideration. I tried to measure a similar degree of 22 Old and Medieval prose works by using the data in the writing of Murata.
著者
池田 宏子 小島 一成 中村 美奈子
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2006, no.112(2006-CH-072), pp.7-14, 2006-10-27

「ザイ」は鬼剣舞の中で演じられる特徴的な動作のひとつである。これは踊り手個人が任意でする動作であり、「振付け」の範囑として習うものではないとされている。従って習得していく過程において振付けと同レベルで教えられるものではなく、ザイを切るタイミングは大体決まってはいるが、決められたタイミングで全員でしなければならないという決まりもない。あくまで踊りの型がからだに入った者が、それからさらに踊りを高度な次元で表現する術としての、「わざ」の領域の動作なのである。本稿では、「基本」と「わざ」の間にある関係性について、舞踊人類学的な調査に基づく質的分析と情報学的な動作計測に基づく量的な分析の両面からの考察を行う。
著者
福田 智子 竹田 正幸 南里 一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.100, pp.49-56, 2000-10-27
被引用文献数
1

本稿では,任意の歌集間から類似歌を抽出することで,ある歌集の成立年代の推定へとつながった事例を報告する.これまで鎌倉時代中期の成立ではないかと考えられていた『為忠集』と,平安最末期以降の私家集(個人歌集)との間で,網羅的に類似歌の抽出を行ったところ,室町時代に成立した,正徹の『草根集』に,まとまった数の類似歌が拾い出せた.さらに,正徹の弟子である桜井基佐の『基佐集』に,『為忠集』に載る歌と同一の歌が見いだせた.『為忠集』に現れる人物の考証も併せて行ったところ,『為忠集』の成立を15世紀と推定することができた.This paper reports an applications of the method of automatically extracting similar poems we developed. We have compared Tametada-Shu, the mysterious anthology unidentified in Japanese literary history, with a number of private anthologies edited after the middle of the Kamakura period (the thirteenth-century) and found that there are several pairs of similar poems between Tametada-Shu and Sokon-Shu, an anthology by Shotetsu. The result suggests that the mysterious anthology was edited by a poet in the early Muromachi period (the fifteenth-century). There have been surmised dispute about the editing date since one scholar suggested the middle of Kamakura period as a probable one. We have had strong evidence about this problem.
著者
山崎 真由美 竹田 正幸 福田 智子 南里 一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.97, pp.57-64, 1998-10-23
被引用文献数
3

和歌文学研究において,歌の類似性の抽出は重要である.歌の類似性に着目することにより,過去や同時代の歌人による作品への影響を明らかにすることができ,また歌人の個性や時代による特徴を獲得することができる.従来,この類の研究は,任意の歌もしくは表現にまず注目し,次にその用例を収集するという方法で進められてきた.だがもし,大量の和歌のデータの中から類似歌を自動抽出することができれば,その類似歌の発見が契機となって新たな視点が得られ,研究の大きな進展につながることも期待できるのである.本論文では,大量の和歌データを対象に,計算機による類似歌の自動抽出を目指し,そのために必要な類似性の指標を提案する.提案した指標は,最長共通部分列に基づく指標を改善したものである.本方式を用いて,古今集と新古今集からの類似歌抽出を試みたところ,類似度の高いものの多くは,実際に本歌取りであり,また,主な注釈書には指摘が漏れている本歌取りも指摘できることが判明した.In this paper we consider a problem of automatically finding similar poems from a collection of classical Japanese poems. We propose two similarity measures, and show that they are superior to the similarity measure based on the longest common subsequence. We report successful results in finding similar poems between two imperial anthologies: KOKINSHU and SHINKOKINSHU