著者
新井 庭子 分寺 杏介 松崎 拓也 影浦 峡
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2017-CH-114, no.5, pp.1-8, 2017-05-06

テキストの難しさの研究として,既存の研究ではテキストか人間の認知の仕組みかどちらかしか研究対象にされてこなかった.本研究は,この 2 つの視点の両方を持ちつつ,主に知識構成を支える言語表現の形式に焦点を当て,小 ・ 中の理科教科書を材料にこの問題への接近を試みる.我々は,読みを困難にするテキストのパラメーターを予測し,小 ・ 中教科書テキストの間にそのパラメーターで表現できるギャップがあることを示したが,その研究はまた,表層的な特徴に加え,質的な観点から言語表現を検討する必要性を示した.本研究では,質的な関連から言語表現を特徴付けるカテゴリーとして,定義表現と分類の表現に着目し,計量的な分析を行った.
著者
蔡 東生 董 然 浅井 信吉
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.1, pp.1-3, 2015-05-09

ヒルベルトーファン変換 (Hilbert-Huang Transform:HHT) は,経験的モード分解により,信号を複数の固有モード関数に分解し,ヒルベルト変換をかけ,時間周波数特性を分析する.時間周波数特性への鋭敏性は,フーリエ変換,ウエーブレット変換より遥かに鋭敏で,本報告では,多変量 HHT を用い,パヒューム,能楽,文楽などの動作を,ワルツ,ヒップホップ,サルサなどの踊りと比較する.
著者
安岡 孝一 クリスティアン ウィッテルン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会研究報告 : 人文科学とコンピュータ(CH) = IPSJ SIG Technical Report (ISSN:21888957)
巻号頁・発行日
vol.2018, no.20, pp.1-8, 2018-01-28

第116回人文科学とコンピュータ研究発表会古典中国語(漢文) の解析手法として,Universal Dependencies の古典中国語への適用に挑戦した.言語横断的な依存構造記述であるUniversal Dependencies は,ニューラルネットを用いた言語解析ツール(特にSyntaxNet) 等に採用されていることから,係り受け解析への応用が容易だと考えられる.しかしながら,古典中国語の文法構造は,Universal Dependencies とは必ずしも相性が良くなく,いくつかの点で齟齬が生じている.この点を含め,現時点での古典中国語Universal Dependencies の検討状況を,他言語UniversalDependencies との比較も含め,大まかに報告する.
著者
佐治 奈通子 中村 覚
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2019-CH-120, no.11, pp.1-7, 2019-05-04

本発表では,歴史学と情報学の協働による,史料画像データ整理の実践事例を示す.具体的には,歴史史料から得られる情報を整理・分析可能な史料研究支援システムを利用して,ボスニアのカトリック修道院所蔵の未整理のオスマン ・ トルコ語文書の画像データ 2,268 点を整理する.その作業を通じて,歴史学的な観点からのニーズを反映させたシステムの改良を試みた.また,個々のデータ詳述と,可視化による史料群の全体像の把握が可能となったことで,作業の効率化とバランスのよい史料理解に繋がった.
著者
王 一凡
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.8, pp.1-4, 2015-05-09

大正新脩大蔵経所収 『一切経音義』 は,活字本でありながら多様な差異を有する膨大な異体字群を内包している.当資料を適切にデジタル化・UCS 符号化するためには,活字の異同を検討したうえで用字に関する体系的な理解を得る必要があるが,総字数 100 万字超,異なり活字約 3 万種と推定される本文を直接点検しながら,一貫性のある分析を行うことは困難である.したがって,活字の集計を省力化する手段が求められる.本報告では,オープンソースライブラリ OpenCV による自動処理を適用することでこれを実現する試みを紹介し,もって特定分野への汎用ライブラリの応用の可能性を提示する.
著者
永井 正勝 和氣 愛仁 高橋 洋成
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2019-CH-119, no.14, pp.1-7, 2019-02-09

一般言語学的なスタンスで様々な時代や地域の言語を統一的に扱おうとした場合に,どのような言語学的データの整理の仕方が必要なのかという観点は,データベース構築の際のプラクティカルな問題であると同時に,その整理行為そのものが,言語のあり方を記述する記述言語学の一形態としての価値を有する.本発表では,このような問題意識のもと,文字の直線的な羅列のみを見ていても言語構造が見え難いような文字資料をも対象としつつ,文字資料が持つ情報の,何を,どのように,整理 ・ 構造化して,それらを情報処理に結びつけていくべきなのか,という点について言語学の立場から提案を行う.
著者
北﨑 勇帆
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.5, pp.1-6, 2015-05-09

洒落本は,近世期に刊行された小説の一形態であり,近世日本語の口語資料としての有用性が高い.この洒落本には,書名や話の粗筋を同一にしながら,江戸板・上方板で内容や語彙に異同のある作品が存在する.上方で刊行されたものが後に江戸で改作された 『月花余情』 組と,江戸で刊行されたものが後に上方で刊行された 『郭中奇譚』 組である.本稿ではそのような江戸・上方間で改作が行われた洒落本のテキストを TEI P5 に準拠してマークアップすることにより,当時の東西言語の比較資料として用いることができる対照コーパスを構築した.
著者
亀田 尭宙 貴志 俊彦 原 正一郎
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2019-CH-119, no.12, pp.1-4, 2019-02-09

京都大学東南アジア地域研究研究所では,戦前戦中に発行された東アジアの絵葉書をデータベースとして整理 ・ 公開している.これまで国際連携のために,Linked Open Data や International Image Interoperability Framework に対応した公開を進めてきた.また,それぞれの弱点である,ドメイン研究者によるデータの簡便な登録と更新や応答の早い検索 API について,当研究所が構築してきた My データベースや Elasticsearch との連携によって補っている.本稿では,データの具体的な形式やシステム間の連携について詳述し,活用に至るまでの課題について議論する.
著者
永崎 研宣
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2017-CH-113, no.6, pp.1-6, 2017-01-28

本稿は,人文系研究データの共有にあたって近年広まりつつあるオープンデータと IIIF という二つの潮流について,それぞれの意義 ・ 可能性 ・ 課題について,論点を整理しつつ今後を見通すことを目指すものである.オープンデータに関しては,デジタル画像資料の利用のしやすさや永続性という点ではメリットをもたらし得るが,異版の登場 ・ 乱立や一次配付元の活動の意義の説明に問題を生じる可能性があり,これを踏まえた評価方法を確立する必要がある.IIIF に関しては,一次配付元の存在感が高まる可能性がある一方で,責任も大きくなる.また,技術的課題もいくつか存在しており,解決に向けての国際的な協調も必要である.
著者
土山 玄
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-107, no.7, pp.1-6, 2015-08-02

近年ディジタルヒューマニティーズが注目されるにともなって,計量文献学の手法を用いた文学作品の計量分析が盛んになっている.文章を計量的に分析するという点で,計量文献学は最近の学問のように思われるが,その研究の萌芽は 19 世紀の西欧にまで遡る.そこで,本論文では内外の計量文献学の達成の歴史とその研究方法を概観する.文章の計量分析では主に著者の識別,及び著作の成立年代あるいは成立順序の推定が研究目的となり,語の長さや語の頻度などの項目が分析に用いられてきた.本論文ではこれらの分析項目の特徴についても検討を加える.
著者
世利 彰規
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.6, pp.1-5, 2015-05-09

本発表ではロシア語で書かれたソーシャルメディアを用いた言説分析の経過を報告する.今回は,ツイッターを資料として用いる.まず先行する電子化されたロシア語の言語資料について紹介する.次にツイッターからデータを取得する上で使用した API やツールについて説明する.さらにロシア語を分析する上での,ロシア語の文法に関わる固有の問題について述べる.最終的に 「日本」 というキーワードで検索して取得したツイートを数量や共起頻度などの角度から分析し,ツイッターを使用するロシア人がもっている日本についてのイメージを取り出すことを目指す.
著者
安岡 孝一
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.2, pp.1-8, 2015-05-09

「パソコンのキーボードのキーの配列が不自然だと思ったことはありませんか」 から始まる読売新聞記事 (2015年3月2日) に反論を試みた.記事のごく一部は訂正されたものの,反論の大部分は徒労に終わり,「連続して打つ頻度の高い文字を遠ざける並び方に変えた」 というガセネタが,再々流布される結果となった.このような局面において,人文情報学に何ができるのか,問題提起と考察を試みる.
著者
渡邉 要一郎 永崎 研宣 大向 一輝 下田 正弘
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2020-CH-124, no.4, pp.1-4, 2020-08-29

上座部仏教の聖典言語であるパーリ語の文献研究は,Vipassana Research Institute によって制作された電子テキストとその検索システムであるChattha Sangayana CD(CSCD)によるデジタル化の波を大きく受けた.しかしこの CSCD が依拠している電子テキストは,ビルマ第六結集版という研究者が標準的に用いるテキストでないものにもとづいたものであった.一般に研究者が用いている標準テキストは Pali Text Society(PTS)によって出版されたものであり,パーリ語の単語や文の位置している頁・行数は PTS 版のそれに従って記述されるのが通例である.そこで筆者は,研究者のニーズを踏まえ,PTS 版の電子テキストを用いて PTS 版の頁・行番号が簡単にとれる検索システムを作成した.
著者
松前 ひろみ 長谷 武志 清水 健太郎
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2020-CH-122, no.2, pp.1-5, 2020-01-25

ヒトのゲノム情報からは,人類の系統や混血などの歴史を詳細かつ統計的に推定することができる.そうしてゲノムから推定される民族集団史の系統関係と,文化,とりわけ言語の分類には,一定の関連があると考えられてきた.しかし言語の分類のうち,言語族という語彙レベルで近縁な言語間の関係を除くと,遠い言語同士の関係(例えば日本語,アイヌ語,韓国語)を定量的に分析することは,これまで困難であった.私たちは文法の比較法である言語類型論の研究者とともに,文法のデータベースから定量的に語族を超えた言語の特徴の類似性を抽出し,ゲノムに基づく民族集団の関係との関係性を分析することに成功した.データベースに蓄積された文化と生物学の情報を統合的に解析する方法を提案する.
著者
加納 靖之
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2020-CH-122, no.5, pp.1-3, 2020-01-25

歴史地震研究の成果としての地震史料集や歴史地震のカタログ(年表)がデジタル化されつつある.既にいくつかの研究プロジェクトによってデジタル化が試みられ,また実用的なデータベースとして公開されてきた.既存のデジタル資源の大部分は地震学,歴史学,情報学の協働によって実現したものである.これらを活用した歴史地震研究を紹介するとともに,今後新たに構築すべきデータベースや取り入れるべき技術や仕組みについて議論したい.
著者
王 一凡 永崎 研宣 下田 正弘
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2016-CH-110, no.7, pp.1-7, 2016-05-07

複層的な伝承経路に由来する膨大な活字種を内包した 『大正新脩大藏經』 所収 「一切経音義」 「続一切経音義」 本文の分析にあたり,版面画像から各グリフ画像を自動的に切り出して全文コーパスに対応づけるシステムに加え,画像を手動で適切に分類・修正するためのクロスプラットフォームな GUI 環境を開発した.これによりコーパスの継続的な保守が可能になるばかりでなく,一連の手法は他の活字化仏典をはじめ戦前期和文活字本のコーパス構築に広く応用できると考えられる.
著者
橋場 天紀 三原 鉄也 永森 光晴 杉本 重雄
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2018-CH-116, no.12, pp.1-5, 2018-01-20

筆者の研究室では,マンガに関する情報へのアクセスと利用を容易にするため,マンガの内容や構造に関する記述方法を検討してきた.その中で,マンガの内容や構造のメタデータを利用した探索性やアクセス性の向上のために,マンガ画像とメタデータを統合的に利用するための環境づくりを進めてきた.本研究では,マンガの内容と構造のメタデータを組み合わせ,マンガの構成要素を検索し提示するシステムを Linked Open Data (LOD) 環境の上に構築した.このシステムは,デジタルヒューマニティーズ領域を中心に広く認知されつつある国際標準である International Image Interoperability Framework (IIIF)を利用して実現した.
著者
西岡 千文 亀田 尭宙 佐藤 翔
出版者
情報処理学会
雑誌
情報処理学会研究報告: 人文科学とコンピュータ(CH) = IPSJ SIG Technical Report (ISSN:21888957)
巻号頁・発行日
vol.2019-CH-120, no.5, pp.1-8, 2019-05-04

近年, 学術出版物のオープンアクセスが進展し,自由にアクセス可能な学術情報が蓄積されている. 一方で,研究評価など様々な目的で利用されている学術出版物の引用データに関しては, 機械可読なアクセスのオープン化が遅れてきた. このような状況を解決するために, I4OC (Initiative for Open Citations) が学術機関と出版社によって設立された. 本稿では, I4OC が公開している引用データを, JaLC メタデータと unpaywall により公開されているデータとともに利用することで, 日本の学術出版物の引用データのオープン化の現状分析を試みる.
著者
董 然 蔡 東生 浅井 信吉
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2018-CH-117, no.4, pp.1-4, 2018-05-05

ヒルベルトーファン変換(Hilbert-Huang Transform: HHT)は信号処理および解析分野において,高精度の解析性能を見せている.周波数領域における舞踊動作手法として,ヒルベルトーファン変換を用いたスペクトラム解析手法が提案され,その優れる解析精度により,周波数領域における舞踊動作の解析ができるようになった.一方,アジアの日本舞踊はスローテンポであり,規則正しい振り付けされているのが一般的である.それに対して,欧米の舞踊動作はアップテンポであり,リズム中心という特徴がある.本研究では,ヒルベルトーファン変換を用い,手の舞踊動作が特徴で,踊りが難しいと言われている「AyaBambi」の舞踊動作をスローテンポの日本伝統舞踊(能楽),およびアップテンポの日本舞踊(Perfume),欧米舞踊(Madonna)と比べ,その独特な舞踊特徴の解析を行う.