著者
新井 庭子 分寺 杏介 松崎 拓也 影浦 峡
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2017-CH-114, no.5, pp.1-8, 2017-05-06

テキストの難しさの研究として,既存の研究ではテキストか人間の認知の仕組みかどちらかしか研究対象にされてこなかった.本研究は,この 2 つの視点の両方を持ちつつ,主に知識構成を支える言語表現の形式に焦点を当て,小 ・ 中の理科教科書を材料にこの問題への接近を試みる.我々は,読みを困難にするテキストのパラメーターを予測し,小 ・ 中教科書テキストの間にそのパラメーターで表現できるギャップがあることを示したが,その研究はまた,表層的な特徴に加え,質的な観点から言語表現を検討する必要性を示した.本研究では,質的な関連から言語表現を特徴付けるカテゴリーとして,定義表現と分類の表現に着目し,計量的な分析を行った.
著者
蔡 東生 董 然 浅井 信吉
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.1, pp.1-3, 2015-05-09

ヒルベルトーファン変換 (Hilbert-Huang Transform:HHT) は,経験的モード分解により,信号を複数の固有モード関数に分解し,ヒルベルト変換をかけ,時間周波数特性を分析する.時間周波数特性への鋭敏性は,フーリエ変換,ウエーブレット変換より遥かに鋭敏で,本報告では,多変量 HHT を用い,パヒューム,能楽,文楽などの動作を,ワルツ,ヒップホップ,サルサなどの踊りと比較する.
著者
高橋 洋成 永崎 研宣 本間 淳
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2022-CH-129, no.3, pp.1-7, 2022-05-14

動画アノテーションツール ELAN で作成された「注釈付き動画」を言語教育の教材として活用するため,本研究は IIIF ビューワ「Mirador 動画アノテーション対応版」を改良し,注釈テキストの自動スクロール機能や字幕表示機能を追加した.また,ELAN の注釈データを IIIF 記述へ変換するにあたり,副産物として様々な形式のデータを得ることができ,多様なプラットフォームを見据えた注釈テキストの「エコシステム」構築の可能性が示された.
著者
安岡 孝一 クリスティアン ウィッテルン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会研究報告 : 人文科学とコンピュータ(CH) = IPSJ SIG Technical Report (ISSN:21888957)
巻号頁・発行日
vol.2018, no.20, pp.1-8, 2018-01-28

第116回人文科学とコンピュータ研究発表会古典中国語(漢文) の解析手法として,Universal Dependencies の古典中国語への適用に挑戦した.言語横断的な依存構造記述であるUniversal Dependencies は,ニューラルネットを用いた言語解析ツール(特にSyntaxNet) 等に採用されていることから,係り受け解析への応用が容易だと考えられる.しかしながら,古典中国語の文法構造は,Universal Dependencies とは必ずしも相性が良くなく,いくつかの点で齟齬が生じている.この点を含め,現時点での古典中国語Universal Dependencies の検討状況を,他言語UniversalDependencies との比較も含め,大まかに報告する.
著者
佐治 奈通子 中村 覚
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2019-CH-120, no.11, pp.1-7, 2019-05-04

本発表では,歴史学と情報学の協働による,史料画像データ整理の実践事例を示す.具体的には,歴史史料から得られる情報を整理・分析可能な史料研究支援システムを利用して,ボスニアのカトリック修道院所蔵の未整理のオスマン ・ トルコ語文書の画像データ 2,268 点を整理する.その作業を通じて,歴史学的な観点からのニーズを反映させたシステムの改良を試みた.また,個々のデータ詳述と,可視化による史料群の全体像の把握が可能となったことで,作業の効率化とバランスのよい史料理解に繋がった.
著者
王 一凡
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.8, pp.1-4, 2015-05-09

大正新脩大蔵経所収 『一切経音義』 は,活字本でありながら多様な差異を有する膨大な異体字群を内包している.当資料を適切にデジタル化・UCS 符号化するためには,活字の異同を検討したうえで用字に関する体系的な理解を得る必要があるが,総字数 100 万字超,異なり活字約 3 万種と推定される本文を直接点検しながら,一貫性のある分析を行うことは困難である.したがって,活字の集計を省力化する手段が求められる.本報告では,オープンソースライブラリ OpenCV による自動処理を適用することでこれを実現する試みを紹介し,もって特定分野への汎用ライブラリの応用の可能性を提示する.
著者
永崎 研宣 青池 亨 本間 淳
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2022-CH-129, no.13, pp.1-3, 2022-05-14

現在のデジタルアーカイブの多くは,実物をデジタル撮影した画像を掲載している.そのなかでは,現物のサイズを確認できるように定規を画像に写し込んでいるものが多く見られる.これは目視でサイズを想定しながらデジタル化資料を閲覧する際にはきわめて有用である.一方,関連のある複数の画像を対比したり重ねて透過したりすることは,デジタルアーカイブに搭載されたコンテンツの利活用方法として有効であるものの,この場合には,この画像中の定規は,目視でサイズをあわせるべく画像を縮小拡大しながら調整する際の参考情報でしかなかった.そこで,筆者らは,二つの画像に写し込まれたそれぞれの定規を画像認識によって比較し,画像サイズを自動的に調整するモデルを考案し,それに沿った実装を開発した.本発表では,このモデルと実装について報告し,今後の課題を提示する.
著者
永井 正勝 和氣 愛仁 高橋 洋成
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2019-CH-119, no.14, pp.1-7, 2019-02-09

一般言語学的なスタンスで様々な時代や地域の言語を統一的に扱おうとした場合に,どのような言語学的データの整理の仕方が必要なのかという観点は,データベース構築の際のプラクティカルな問題であると同時に,その整理行為そのものが,言語のあり方を記述する記述言語学の一形態としての価値を有する.本発表では,このような問題意識のもと,文字の直線的な羅列のみを見ていても言語構造が見え難いような文字資料をも対象としつつ,文字資料が持つ情報の,何を,どのように,整理 ・ 構造化して,それらを情報処理に結びつけていくべきなのか,という点について言語学の立場から提案を行う.
著者
北﨑 勇帆
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.5, pp.1-6, 2015-05-09

洒落本は,近世期に刊行された小説の一形態であり,近世日本語の口語資料としての有用性が高い.この洒落本には,書名や話の粗筋を同一にしながら,江戸板・上方板で内容や語彙に異同のある作品が存在する.上方で刊行されたものが後に江戸で改作された 『月花余情』 組と,江戸で刊行されたものが後に上方で刊行された 『郭中奇譚』 組である.本稿ではそのような江戸・上方間で改作が行われた洒落本のテキストを TEI P5 に準拠してマークアップすることにより,当時の東西言語の比較資料として用いることができる対照コーパスを構築した.
著者
小池 隆
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2021-CH-126, no.3, pp.1-5, 2021-05-15

本論文では,石造物研究における深層学習の活用例として,(1)車載カメラで撮影した動画からの石造物の検出と分類,(2)画像認識による月待塔オープンデータのデータエンリッチメントについて報告する.
著者
亀田 尭宙 貴志 俊彦 原 正一郎
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2019-CH-119, no.12, pp.1-4, 2019-02-09

京都大学東南アジア地域研究研究所では,戦前戦中に発行された東アジアの絵葉書をデータベースとして整理 ・ 公開している.これまで国際連携のために,Linked Open Data や International Image Interoperability Framework に対応した公開を進めてきた.また,それぞれの弱点である,ドメイン研究者によるデータの簡便な登録と更新や応答の早い検索 API について,当研究所が構築してきた My データベースや Elasticsearch との連携によって補っている.本稿では,データの具体的な形式やシステム間の連携について詳述し,活用に至るまでの課題について議論する.
著者
永崎 研宣
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2017-CH-113, no.6, pp.1-6, 2017-01-28

本稿は,人文系研究データの共有にあたって近年広まりつつあるオープンデータと IIIF という二つの潮流について,それぞれの意義 ・ 可能性 ・ 課題について,論点を整理しつつ今後を見通すことを目指すものである.オープンデータに関しては,デジタル画像資料の利用のしやすさや永続性という点ではメリットをもたらし得るが,異版の登場 ・ 乱立や一次配付元の活動の意義の説明に問題を生じる可能性があり,これを踏まえた評価方法を確立する必要がある.IIIF に関しては,一次配付元の存在感が高まる可能性がある一方で,責任も大きくなる.また,技術的課題もいくつか存在しており,解決に向けての国際的な協調も必要である.
著者
土山 玄
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-107, no.7, pp.1-6, 2015-08-02

近年ディジタルヒューマニティーズが注目されるにともなって,計量文献学の手法を用いた文学作品の計量分析が盛んになっている.文章を計量的に分析するという点で,計量文献学は最近の学問のように思われるが,その研究の萌芽は 19 世紀の西欧にまで遡る.そこで,本論文では内外の計量文献学の達成の歴史とその研究方法を概観する.文章の計量分析では主に著者の識別,及び著作の成立年代あるいは成立順序の推定が研究目的となり,語の長さや語の頻度などの項目が分析に用いられてきた.本論文ではこれらの分析項目の特徴についても検討を加える.
著者
世利 彰規
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.6, pp.1-5, 2015-05-09

本発表ではロシア語で書かれたソーシャルメディアを用いた言説分析の経過を報告する.今回は,ツイッターを資料として用いる.まず先行する電子化されたロシア語の言語資料について紹介する.次にツイッターからデータを取得する上で使用した API やツールについて説明する.さらにロシア語を分析する上での,ロシア語の文法に関わる固有の問題について述べる.最終的に 「日本」 というキーワードで検索して取得したツイートを数量や共起頻度などの角度から分析し,ツイッターを使用するロシア人がもっている日本についてのイメージを取り出すことを目指す.
著者
安岡 孝一
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.2, pp.1-8, 2015-05-09

「パソコンのキーボードのキーの配列が不自然だと思ったことはありませんか」 から始まる読売新聞記事 (2015年3月2日) に反論を試みた.記事のごく一部は訂正されたものの,反論の大部分は徒労に終わり,「連続して打つ頻度の高い文字を遠ざける並び方に変えた」 というガセネタが,再々流布される結果となった.このような局面において,人文情報学に何ができるのか,問題提起と考察を試みる.
著者
西本 恵太
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2022-CH-130, no.1, pp.1-5, 2022-08-20

インターネット百科事典 Wikipedia には,利用者が作成・編集した歴史上のイベント・人物に関する記事が多数存在する.これまで,Wikipedia を集合的記憶(collective memory)の貯蔵と生成の場と解釈し,記憶の形成プロセスを探る研究が行われてきた.本研究では,集合的記憶における記憶の想起,および想起に伴う記憶の再構成に着目する.集合的な記憶の想起の例として,大河ドラマの放映による歴史人物に対する注意の増加と,それに伴う歴史記事への編集数の変化と編集内容を分析した.さらに分析結果を踏まえて,集合的記憶の再固定化に関して議論を行う.
著者
幾浦 裕之 永崎 研宣 加藤 弓枝
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2023-CH-132, no.3, pp.1-8, 2023-05-13

日本古典文学資料において,和歌は『源氏物語』とともに最も早くから本文のデジタル化が進んだジャンルである.しかし作品本文の表示方法や検索機能が固定して利用されつづけており,研究者の読解や異文情報をデジタルテキストとして記述する方法も未だ模索されていない.本発表では勅撰和歌集とともに約 1100 年の長い歴史をもつ,歌合(うたあわせ)という和歌の優劣を競う作品形態を,TEI/XML 形式でマークアップする方法について提示する.具体的には中世和歌のひとつの到達点とされる『新古今和歌集』が成立した 13 世紀初頭の成立の『石清水社歌合』を対象とする.中世和歌の基本的な創作方法である題詠(だいえい)の表現形式をマークアップし,マークアップによって和歌作品の読解を深め,可視化し,デジタルテキストとして残すことができる方法を提案する.
著者
村田 祐菜
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2019-CH-120, no.9, pp.1-5, 2019-05-04

近代短歌結社の一つである 「アララギ」 は,大正五年 ~ 昭和初期にかけて島木赤彦,斎藤茂吉,中村憲吉,古泉千樫,釈迢空らの同人を中心に,歌壇において大きな影響力を持った.彼らが歌壇において隆盛を極めた一因として結社意識の強さが指摘できるが,具体的な短歌表現に基づいて彼らの表現意識の共通点を明らかにした研究は少ない.本発表では短歌テキストに N-gram 統計を用いたテキスト分析の手法を用いて,同人間の短歌表現の分析を行った.
著者
山田 太造 井上 聡
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2016-CH-109, no.2, pp.1-4, 2016-01-23

東京大学史料編纂所では前近代日本史・史料学研究に関わる 30 もの DB を公開している.これらの DB の多くは人物に関わるデータを含んでおり,史料テキスト内に出現した人名・その人物の別称・官位,肖像・写真,花押,さらに人名辞典などがあり,多様である.本研究では,人物に関わる多様なデータを収集・蓄積するために構築している 「人名リポジトリ」 について紹介する.
著者
渡邉 要一郎 永崎 研宣 大向 一輝 下田 正弘
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2020-CH-124, no.4, pp.1-4, 2020-08-29

上座部仏教の聖典言語であるパーリ語の文献研究は,Vipassana Research Institute によって制作された電子テキストとその検索システムであるChattha Sangayana CD(CSCD)によるデジタル化の波を大きく受けた.しかしこの CSCD が依拠している電子テキストは,ビルマ第六結集版という研究者が標準的に用いるテキストでないものにもとづいたものであった.一般に研究者が用いている標準テキストは Pali Text Society(PTS)によって出版されたものであり,パーリ語の単語や文の位置している頁・行数は PTS 版のそれに従って記述されるのが通例である.そこで筆者は,研究者のニーズを踏まえ,PTS 版の電子テキストを用いて PTS 版の頁・行番号が簡単にとれる検索システムを作成した.