著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.323-331, 2018-02-15

古典中国語(漢文)の解析手法として,MeCabを用いた形態素解析手法を提案する.本手法では,漢文の動賓構造を表現すべく,4階層の「品詞」からなる新たな品詞体系を構築し,それに基づくMeCab漢文コーパスを設計した.合わせて,MeCab漢文コーパスを入力するための専用ツールとして,XEmacs CHISEをベースとしたコーパス入力ツールを開発した.また,MeCab漢文コーパスを効果的に管理し,さらには品詞体系のリファクタリングを行うべく,MeCab漢文コーパスのLinked Data化を行い,WWW上で公開した.さらに,MeCabを用いた漢文形態素解析の応用として,漢文における固有表現の自動抽出に挑戦した.結果として,地名の自動抽出は高精度に行うことができたが,官職・人名の自動抽出はそれぞれに課題が残った.
著者
守岡 知彦
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.332-340, 2018-02-15

項書き換え系を用いた漢字の包摂規準の形式化手法を提案する.漢字の包摂規準は本質的に木構造のパターンに対する書き換えとして記述されているため,項書き換え系における書き換え規則として表現することは容易である.また,完備化アルゴリズムを用いることで計算機にとってより扱いやすい形に変換することができる.しかしながら,包摂除外をはじめとする包摂規準の例外や定義の不完全さ,符号化された漢字レパートリの不斉一さといった問題を扱うためには文字単位の包摂関係と包摂規準に基づく部品間の包摂関係の双方でダブルチェック可能な手法が望ましい.そこで,完備な包摂記述という概念をあわせて提案する.
著者
安岡 孝一 クリスティアン ウィッテルン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会研究報告 : 人文科学とコンピュータ(CH) = IPSJ SIG Technical Report (ISSN:21888957)
巻号頁・発行日
vol.2018, no.20, pp.1-8, 2018-01-28

第116回人文科学とコンピュータ研究発表会古典中国語(漢文) の解析手法として,Universal Dependencies の古典中国語への適用に挑戦した.言語横断的な依存構造記述であるUniversal Dependencies は,ニューラルネットを用いた言語解析ツール(特にSyntaxNet) 等に採用されていることから,係り受け解析への応用が容易だと考えられる.しかしながら,古典中国語の文法構造は,Universal Dependencies とは必ずしも相性が良くなく,いくつかの点で齟齬が生じている.この点を含め,現時点での古典中国語Universal Dependencies の検討状況を,他言語UniversalDependencies との比較も含め,大まかに報告する.
著者
守岡 知彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.73, pp.17-22, 2008-07-18
被引用文献数
1

古典中国語 (漢文) 電子テキストの蓄積が進む中、自然言語処理技術の重要性は高まって来ているが実装は少ない。本論文では、MeCab を用いた古典中国語用形態素解析器のプロトタイプについて概説するとともに、本格的な古典中国語文法コーパス作成のためのワークフローについて考察する。This paper explains an overview of an experimental Morphological Analyzer for Classical Chinese based on MeCab. In addition, the paper considers a workflow to develop grammatical corpus for Classical Chinese.
著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.323-331, 2018-02-15

古典中国語(漢文)の解析手法として,MeCabを用いた形態素解析手法を提案する.本手法では,漢文の動賓構造を表現すべく,4階層の「品詞」からなる新たな品詞体系を構築し,それに基づくMeCab漢文コーパスを設計した.合わせて,MeCab漢文コーパスを入力するための専用ツールとして,XEmacs CHISEをベースとしたコーパス入力ツールを開発した.また,MeCab漢文コーパスを効果的に管理し,さらには品詞体系のリファクタリングを行うべく,MeCab漢文コーパスのLinked Data化を行い,WWW上で公開した.さらに,MeCabを用いた漢文形態素解析の応用として,漢文における固有表現の自動抽出に挑戦した.結果として,地名の自動抽出は高精度に行うことができたが,官職・人名の自動抽出はそれぞれに課題が残った.A method to analyze classical Chinese texts is proposed. In the method, we use our original morphological analyzer based on MeCab. We propose a new four-level word-class system to represent the predicate-object structure of classical Chinese. In order to make a corpus for classical Chinese on MeCab, we have constructed a MeCab-corpus editor based on XEmacs CHISE. In order to control the corpus effectively, and to refactor our four-level word-class system, we have converted it into Linked Data on WWW. As an applied study for our morpholgical analysis of classical Chinese texts, we have tried to extract named entities: names of places, job titles, and names of people. As a result we are able to extract names of places from classical Chinese texts almost perfectly. But we have found some difficulties to extract job titles or names of people.
著者
守岡知彦
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2013, no.3, pp.1-6, 2013-01-18

「CHISE IDS 漢字検索」 や 「東洋学文献類目データベース Ver.7」 の詳細画面表示に用いている "EST" に対して RDF/XML 形式での出力機能の追加を試みた。ここでは階層的素性名の RDF/XML における述語へのマッピングに焦点を当てて概説する。
著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹 藤田 一乘
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.63, no.2, pp.355-363, 2022-02-15

Universal Dependenciesに基づいて,『孟子』『論語』『禮記』『十八史略』の依存構造(係り受け)コーパスを製作した.さらに,このコーパスを用いて,古典中国語の文切り・形態素解析・係り受け解析を統合的に行う解析システムも開発した.Universal Dependenciesは,書写言語における品詞・形態素属性・依存構造(係り受け情報)を,言語に依存せず記述する手法である.Universal Dependenciesの係り受け記述は,いわゆる動詞中心主義であり,言語横断的であると同時に,古典中国語における動賓終構造の記述にも適している.ただし,Universal Dependenciesにおけるコピュラ文の記述方法は,古典中国語のコピュラ文との間で微妙に齟齬があり,結果として,補語が節であるようなコピュラ文(約1.6%)に関しては,記述は行えるものの記法上の問題が残った.
著者
安岡 孝一 山崎 直樹 二階堂 善弘 師 茂樹 Wittern C. 池田 巧 守岡 知彦 鈴木 慎吾
出版者
京都大学
雑誌
基盤研究(B)
巻号頁・発行日
2017-04-01

古典漢文における動詞の作用域、すなわち「動詞の後に置かれる項」のまとまりを、自動抽出する手法の開発をおこなった。具体的には、Universal Dependenciesと呼ばれる文法記述手法を用いて、いわゆる四書(『孟子』『論語』『大學』『中庸』)の係り受けコーパスを制作し、これを用いて、古典漢文の形態素解析と依存文法解析(係り受け解析)をおこなうツールUD-Kanbunを作成した。さらに、このツールを発展させて、動詞の作用域を元に返り点の自動生成をおこない、日本語の活用語尾と助詞を自動で付加することで、自動的に訓読をおこなうツールUD-Kundokuを試作した。
著者
守岡 知彦
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2009-CH-84, no.3, pp.1-5, 2009-10-17

CH 79 で発表した MeCab を用いた古典中国語形態素解析器のその後の改良について述べる。ここでは、特に、品詞 (素性) 階層の設計の問題と異体字処理の問題に関して焦点を当てる。
著者
守岡 知彦
雑誌
じんもんこん2008論文集
巻号頁・発行日
vol.2008, pp.13-18, 2008-12-13

近年、人文系資料のインターネット上での公開が進んでいる。しかしながら、こうした人文系情報サービスが持つデータ量の増加に比べて、情報サービスの種類の増加、ひいては、その質的向上は進んでないと思われる。これは、現在の人文系情報サービスの多くが互いに連係しておらず、孤立したデータが散在していて、データがデータを生み出すような環境が実現されていないからだと思われる。ここでは、こうした問題を改善するための方策を、ツールチェーンや基盤データの整備、WWWサービスの問題、データベースのリファクタリングといった観点から議論する。
著者
守岡 知彦
出版者
情報処理学会
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.8, pp.1-8, 2010-07-24

CHISE の文字オントロジーを Wiki 的な手法で編集するための WWW サービス "CHISE-Wiki" を試作した。ここでは構造化された情報を拡張可能性を損なわずに容易に編集するための工夫に焦点を当てて概説する。This paper explains "CHISE-Wiki" which is a Web-service to edit the CHISE character ontology based on Wiki-way. In this paper, we focus how edit structured data easily and not spoil extensibility.
著者
守岡知彦
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2013-CH-99, no.1, pp.1-7, 2013-07-27

アニメやマンガ等の高度に記号化されたキャラクターを身体や衣装等で表現するコスチュームプレイ (コス) はキャラクターというものを考える上で重要な示唆を与えてくれる対象だといえる。コス文化は現在世界に広がっているが、日本のコスは極度に写真指向になっており、パフォーミングアートを中心とする諸外国のありようと大きく異なっているといわれる。また、写真の扱われ方や評価軸においても独特の世界を作っているように思われる。こうした日本のコス写真のありようを研究する上では写真の収集・分析が欠かせないといえるが、自動化・省力化のためのツールやコス写真コーパスの実現可能性について議論したい。
著者
守岡知彦
出版者
一般社団法人情報処理学会
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2013, no.1, pp.1-7, 2013-07-27

アニメやマンガ等の高度に記号化されたキャラクターを身体や衣装等で表現するコスチュームプレイ (コス) はキャラクターというものを考える上で重要な示唆を与えてくれる対象だといえる。コス文化は現在世界に広がっているが、日本のコスは極度に写真指向になっており、パフォーミングアートを中心とする諸外国のありようと大きく異なっているといわれる。また、写真の扱われ方や評価軸においても独特の世界を作っているように思われる。こうした日本のコス写真のありようを研究する上では写真の収集・分析が欠かせないといえるが、自動化・省力化のためのツールやコス写真コーパスの実現可能性について議論したい。
著者
守岡 知彦
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2008, no.73(2008-CH-079), pp.17-22, 2008-07-18

古典中国語 (漢文) 電子テキストの蓄積が進む中、自然言語処理技術の重要性は高まって来ているが実装は少ない。本論文では、MeCab を用いた古典中国語用形態素解析器のプロトタイプについて概説するとともに、本格的な古典中国語文法コーパス作成のためのワークフローについて考察する。
著者
守岡 知彦
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.61, no.2, pp.171-178, 2020-02-15

複数の包摂粒度を許容する漢字構造記述を内容アドレッシングを用いた分散データモデルの1つであるIPLDに基づいて実現する試みについて述べる.IPLDはMerkle DAGというデータ構造を用いている.これは暗号学的ハッシュを用いてラベル付けされた不変オブジェクトをノードとする有向非巡回グラフであり,オブジェクト間の関係は片方向しか表現できない.この制約の下で編集可能な文字知識を表現するために,不変性の高い基礎的オブジェクトへのリンクを含む複合的なオブジェクトによって可変性のある文字オブジェクトを表現するための形式を提案する.また,IPLDグラフの逆リンクや場所アドレッシングの実現手法について検討するとともに,既存のグラフストレージでの試験的実装についても述べる.
著者
守岡 知彦
雑誌
じんもんこん2018論文集
巻号頁・発行日
vol.2018, pp.373-380, 2018-11-24

人文情報系データベースを長期間維持することの困難さが認識されるようになってきたが、実際にサービスが停止してしまったデータベースを復元しそのデータを将来にわたって維持することは必ずしも容易ではないといえる。ここでは、漢字字体規範史データベース(Hanzi Normative Glyphs; HNG) の分散型版管理の利用したデータセット化、研究者の所属機関や営利企業のプラットフォームに依存しないGit サービスの提供、データセット保存会といった漢字字体規範史データセットに関する取組みについて概説するとともに、人文情報系データベースの長期保存にかかわる問題についても併せて議論する。
著者
守岡 知彦
出版者
情報処理学会
雑誌
じんもんこん2018論文集 (ISSN:13440640)
巻号頁・発行日
vol.2018, pp.373-380, 2018-12

じんもんこん2018、2018年12月1日~2日、東京大学地震研究所。
著者
守岡 知彦
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2012-CH-94, no.8, pp.1-8, 2012-05-19

漢字字形共有サービス GlyphWiki と文字オントロジー共有サービス CHISE-wiki を利用者から見て一体のシステムとして運用できるように、主に、グリフ名/素性名の対応関係に着目して議論する。
著者
守岡 知彦
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2016-CH-111, no.4, pp.1-8, 2016-07-23

HNG の基になった 「石塚漢字字体資料」 のカード画像を CHISE-wiki 上で試験的に公開したのでその概要について報告する.また,京都大学人文科学研究所所蔵の開成石経の拓本画像と 「石塚漢字字体資料」 のカード画像の統合も試みた.