著者
青池 亨 里見 航 川島 隆徳
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.97-102, 2018-11-24

The National Diet Library is now developing techniques for automatically recognizing which areas of a printed page are illustrations and which are graphemes, as a means of improving the searchability of digitized material. The ability to distinguish between illustrations and graphemes is expected to im- prove the accuracy of OCR processing by allowing areas without graphemes to be ignored while ena- bling the application of contrast correction to areas with graphemes, thereby improving readability of the digital images. Moreover, the ability to extract areas with illustrations is expected to have practical applications for content-based retrieval of similar images. This paper focuses on the extraction of areas with illustrations and reports on the creation of a system that is consistently able to extract illustra- tions from digital images of documents as well as perform content-based retrieval of images.Services incorporating these proposed techniques will be released on a trial basis on the NDL Lab web- site. (https://lab.ndl.go.jp/).
著者
中村 覚 成田 健太郎 永井 正勝
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.297-302, 2018-11-24

法帖の研究において,版の異同を検討し,その系統を詳らかにすることは肝要である.本研究ではこのような法帖研究の支援を目的として,法帖における異版作品の比較を支援するシステムを開発した.典拠データのLinked Data 化と,複数機関が提供するIIIF 準拠画像に対するアノテーション付与による個別作品の識別により,異版関係にある個別作品を検出可能なシステムを構築した.国立国会図書館,国文学研究資料館,東京大学附属図書館が提供する法帖画像を対象としたケーススタディを通じ,版6 件,著者252 件,作品902 件,異版作品1403 件から構成される典拠データの作成,および213 件の個別作品に対して紐づけを行い,任意の異版作品の異なる個別資料における再現例を検出できることを確認した.
著者
土山 玄
雑誌
じんもんこん2018論文集
巻号頁・発行日
no.2018, pp.269-276, 2018-11-24
著者
加納 靖之 橋本 雄太
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.147-152, 2018-11-24

市民参加型の史料翻刻プロジェクト「みんなで翻刻」で生成されたテキストに対して,既存の計量テキスト分析用のツールを利用して,頻出語の計数や共起関係の分析を実施した.また,歴史地名データを利用して,テキスト中の地名の同定についても検討した.「地震」という語には,方角や地名に関する語だけでなく,被害に関する語が伴なうことが多いことがわかった.一定の分析結果が得られたものの,分析に利用する辞書の整備や地名の同定方法を洗錬されたものにすることが今後の課題である.
著者
豊澤 修平 村井 源
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.75-82, 2018-11-24

本論文では星新一のショートショートにおけるオチに至る物語構造の分析をするために,古典的なプロット分 析を利用しオチパターンの抽出を行った.物語の自動生成において意味の通る作品を作ることが困難であるが, オチに至る物語構造を分析することにより,より自然な物語の自動生成を実現できる能性がある.星新一の代表 的なジャンルである SF から「宇宙」と「薬」,特徴的なテーマとして「悪魔・魔人」に作品を限定しオチのパ ターン化と必要条件,前提条件の抽出を行った.結果として各テーマにおける特徴的なパターンの抽出を行うこ とができた.テーマのパターン化及び必要条件と前提条件の記述の統一化と抽象化の結果を用いることで,今後 より星新一らしい自然な物語の自動生成が可能になると考えられる.
著者
片山 久留美 小木曽 智信 中村 壮範
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.89-96, 2018-11-24

国立国語研究所で構築中の『日本語歴史コーパス』に『室町時代編Ⅱキリシタン資料』として『天草版平家物語』『天草版伊曽保物語』の2作品が追加された.これらの資料は原本がポルトガル式ローマ字により表記されており,当時の発音を知ることができる資料として日本語研究上重要な位置を占める.コーパス化にあたっては,ローマ字テキストと和文テキストを用意し両者をアラインメントにより対応付けることで二つのテキストを同時に参照可能にした.その際,仮の和文テキストを作成して形態素解析を行い,付与された形態論情報を利用することによって,均質性の高い独自の和文テキストを自動で出力したほか,ローマ字テキストと和文テキストのアラインメント作業も効率よく行うことが可能となった.
著者
塚越 柚季
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.9-14, 2018-11-24

サンスクリットの文中の単語に自動で形態情報を付与するのは容易ではない.文中の語形 (主に語尾) は,連 声規則により主に後続する語の語頭の音によって変化する.このため,手を加えていないテキストに対する形 態情報の付与が難しい.そこで連声規則が適用されている原典テキストから,連声規則前の形の単語の連続に 戻すことが必要である.時間を要するが,語彙や形態の情報を元に連声を解除することは可能である.一方でそのような情報なしに Attention メカニズム + sequence to sequence モデルを用いて短時間に高精度で連声の解除にも成功している. 本研究では Attention のみを使って高い精度を出すことができる Transformer モデルを用いて,高精度な連声の解除を行った.
著者
塚常 健太 黒川 茂莉
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.39-46, 2018-11-24

日本の苗字はその由来と地域性の点で多様性があり,由来に関する文献学的研究および地域性に関する統 計学的研究が行われてきた.しかしながら,苗字の由来を考慮した定量的分析を行っている研究は少ない. 本論文では,苗字の由来に関連すると考えられる植物の名前が含まれる苗字(植物苗字)に着目し,その統 計学的分析を行う.電話帳に基づく苗字統計の Web サイトより収集した上位1万位の苗字データを用い,漢 字辞典を基に植物苗字の分類を行った.その結果得られた1,154種の植物苗字を対象とし,非植物苗字との 比較も行いながら地域的な偏りに関する統計的傾向を明らかにした.さらに,その地域的偏りの要因をマル チレベル分析により分析し,植生分布が正の影響を及ぼすことなどが分かった.
著者
矢野 浩二朗 横山 恵理
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.199-204, 2018-11-24

初等,中等教育の国語科においては,古典作品の歴史や背景を学びながらそれを楽しむ態度を育成することが求められているが,現実には古典に親しみを持つ児童や生徒は多いとは言い難い.そこで本発表では,我々が開発している絵巻物「伴大納言絵巻」の上巻の没入型インタラクティブコンテンツについて紹介する.このコンテンツでは,絵巻中の人物を切りだしてポリゴン化し,仮想空間内の絵巻に配置している.ユーザーはヘッドマウントディスプレイを通して絵巻を鑑賞し,仮想空間内で絵巻にユーザーが近づくと人物がアニメーションし,シナリオに従って発話できるようにすることで各々の人物が絵巻の物語の中で何をしているのかを理解できるようにした.このコンテンツを活用することで,絵巻物の内容理解,および興味関心が向上することが期待される.
著者
後藤 真 小風 尚樹 橋本 雄太 小風 綾乃 永崎 研宣
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.243-248, 2018-11-24

本研究は,日本古代の史料である『延喜式』に対してTEI マークアップを施した際の,マニュアル等の記述の状況について述べたものである.TEI は,広く人文研究のためのテクストを作る国際標準として重要であるものの,そのルールが複雑であり,専門家以外には記述が困難であるという状況がある.また,このようなデータを作成した際に「どのような意図でデータを作ったのか」を記録することで,研究そのものをトレースすることができるようになるとともに,データの長期保存にとっても有益であると考えられる.
著者
曽我 麻佐子 鈴木 卓治
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.315-320, 2018-11-24

蒔絵万年筆は,照明などの光や湿度によって劣化するものがあり,恒常的な展示に適さない.また,細かい柄等が肉眼で見えにくいといった問題もある.本研究では,博物館の来館者に蒔絵万年筆をより細かいところまで自由に鑑賞してもらうことを目的として,HMD とペン型デバイスを用いた万年筆の展示支援システムを開発した.本システムでは,HMD 用いてVR 空間に表示した万年筆の3DCG を,ペン型デバイスで操作して鑑賞することができる.直感的に万年筆を操作するために,ペン型デバイスに搭載したジャイロセンサから検出した角速度をもとに,万年筆の3DCG を回転させている.また,HMD を装着した状態で複数の万年筆から一つを選んで簡単に切替えられるようにするため,HMD の画面の中心にカーソルを表示することで,頭の動きのみで鑑賞する万年筆を選択することが可能である.開発したシステムは,国立歴史民俗博物館の企画展において8 週間運用した.来館者の評価により,本システムのコンセプトの有用性を確認した.
著者
相田 満
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.27-32, 2018-11-24

生き物供養・何でも供養とでもいうべき,人間以外の生物や物品を祀り,供養する,多様な信仰遺物 が,日本国内の随所に遍在する.その総数は不明だが,現在の所,2,600 件を超える遺物を調査した段階 にある.そうした中で,日本の統治下にあった台湾は,遺跡の悉皆調査に恵まれており,日本の供養の在 り方と比較をするのに格好の調査対象となっている.そこで,本論では,その特性に着目した分析を試 みることによって,見えてきたことを中心に分析と考察を試みる.
著者
劉 冠偉 李 媛 池田 証壽
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.83-88, 2018-11-24

近年,スマートフォンやタブレットのようなモバイル端末が普及し,日常生活を変えつつあり,日本語教育・日本語研究にも使えるようになると予想される.しかしながら,構築・公開が盛んである古典籍・古文書のデータベースはPC 向けが多く,PC 以外の端末で利用する際は表示サイズのずれや機能障害がしばしば発生する.そこで,筆頭著者(劉)はモバイル端末でデータベースを利用しているユーザを想定した利便性が高い言語資源データベースのWeb APP「HDIC Viewer」を開発した.今回は,さらに利便性の向上を主題とする.篆隷万象名義のほか,大広益会玉篇と新撰字鏡を加え,三つの古辞書間の横断検索の実現,IDS 漢字検索の改善,Web API の提供について述べる.
著者
橋本 雄太 宮川 真弥
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.237-242, 2018-11-24

歴史文献史料を構造化されたデータとして扱うためには,何らかの機械処理可能なマークアップ言語を用いて翻刻文を記述することが望ましい.加えて人文学研究者やクラウドソーシング参加者が利用するためには,そのような言語は簡潔かつ可読性の高い文法で記述される必要がある.そこで,古文書や古記録,古典籍といった日本語文献史料を記述するための軽量マークアップ言語を開発した.この言語の文法を形式文法のひとつである解析表現文法によって定義し,また縦書き入力やシンタックスハイライトに対応したオンラインエディタを開発した.このような入力負荷の低いマークアップ言語が普及することで,クラウドソーシングによる史料翻刻や,文献史料のデータベース化が効率的に進むことが期待される.
著者
守岡 知彦
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.373-380, 2018-11-24

人文情報系データベースを長期間維持することの困難さが認識されるようになってきたが、実際にサービスが停止してしまったデータベースを復元しそのデータを将来にわたって維持することは必ずしも容易ではないといえる。ここでは、漢字字体規範史データベース(Hanzi Normative Glyphs; HNG) の分散型版管理の利用したデータセット化、研究者の所属機関や営利企業のプラットフォームに依存しないGit サービスの提供、データセット保存会といった漢字字体規範史データセットに関する取組みについて概説するとともに、人文情報系データベースの長期保存にかかわる問題についても併せて議論する。
著者
ますとみ けい 村井 源
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.129-134, 2018-11-24

星新一のショートショート作品の終結部がもたらす特有の皮肉感や納得感に,物語の登場人物達が抱く「願望・欲望」が関与していることを確かめるため,星新一作品の終結部で起きる「オチ」のパターンと登場人物が抱く「願望・欲望」をそれぞれカテゴライズして書き下し,各カテゴリの出現数をカウントした.また特定のオチと願望・欲望が同時に出現する作品数をカウントし,カイ二乗検定の残差分析による出現傾向の分析を行った.結果,星新一作品の登場人物が抱きやすい願望・欲望は「金が欲しい」(金・物欲),「謎が知りたい」(好奇心),「不安な状況から脱したい」(解放) であること,また「金や物を欲する人物がいる物語では,人物同士の立場や優劣が逆転しやすい」など,起こりやすい願望・欲望とオチの組み合わせがあることが示唆された.
著者
守岡 知彦
出版者
情報処理学会
雑誌
じんもんこん2018論文集 (ISSN:13440640)
巻号頁・発行日
vol.2018, pp.373-380, 2018-12

じんもんこん2018、2018年12月1日~2日、東京大学地震研究所。