著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.323-331, 2018-02-15

古典中国語(漢文)の解析手法として,MeCabを用いた形態素解析手法を提案する.本手法では,漢文の動賓構造を表現すべく,4階層の「品詞」からなる新たな品詞体系を構築し,それに基づくMeCab漢文コーパスを設計した.合わせて,MeCab漢文コーパスを入力するための専用ツールとして,XEmacs CHISEをベースとしたコーパス入力ツールを開発した.また,MeCab漢文コーパスを効果的に管理し,さらには品詞体系のリファクタリングを行うべく,MeCab漢文コーパスのLinked Data化を行い,WWW上で公開した.さらに,MeCabを用いた漢文形態素解析の応用として,漢文における固有表現の自動抽出に挑戦した.結果として,地名の自動抽出は高精度に行うことができたが,官職・人名の自動抽出はそれぞれに課題が残った.
著者
安岡 孝一 クリスティアン ウィッテルン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会研究報告 : 人文科学とコンピュータ(CH) = IPSJ SIG Technical Report (ISSN:21888957)
巻号頁・発行日
vol.2018, no.20, pp.1-8, 2018-01-28

第116回人文科学とコンピュータ研究発表会古典中国語(漢文) の解析手法として,Universal Dependencies の古典中国語への適用に挑戦した.言語横断的な依存構造記述であるUniversal Dependencies は,ニューラルネットを用いた言語解析ツール(特にSyntaxNet) 等に採用されていることから,係り受け解析への応用が容易だと考えられる.しかしながら,古典中国語の文法構造は,Universal Dependencies とは必ずしも相性が良くなく,いくつかの点で齟齬が生じている.この点を含め,現時点での古典中国語Universal Dependencies の検討状況を,他言語UniversalDependencies との比較も含め,大まかに報告する.
著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.323-331, 2018-02-15

古典中国語(漢文)の解析手法として,MeCabを用いた形態素解析手法を提案する.本手法では,漢文の動賓構造を表現すべく,4階層の「品詞」からなる新たな品詞体系を構築し,それに基づくMeCab漢文コーパスを設計した.合わせて,MeCab漢文コーパスを入力するための専用ツールとして,XEmacs CHISEをベースとしたコーパス入力ツールを開発した.また,MeCab漢文コーパスを効果的に管理し,さらには品詞体系のリファクタリングを行うべく,MeCab漢文コーパスのLinked Data化を行い,WWW上で公開した.さらに,MeCabを用いた漢文形態素解析の応用として,漢文における固有表現の自動抽出に挑戦した.結果として,地名の自動抽出は高精度に行うことができたが,官職・人名の自動抽出はそれぞれに課題が残った.A method to analyze classical Chinese texts is proposed. In the method, we use our original morphological analyzer based on MeCab. We propose a new four-level word-class system to represent the predicate-object structure of classical Chinese. In order to make a corpus for classical Chinese on MeCab, we have constructed a MeCab-corpus editor based on XEmacs CHISE. In order to control the corpus effectively, and to refactor our four-level word-class system, we have converted it into Linked Data on WWW. As an applied study for our morpholgical analysis of classical Chinese texts, we have tried to extract named entities: names of places, job titles, and names of people. As a result we are able to extract names of places from classical Chinese texts almost perfectly. But we have found some difficulties to extract job titles or names of people.
著者
安岡 孝一 山崎 直樹 二階堂 善弘 師 茂樹 クリスティアン ウィッテルン 池田 巧 守岡 知彦 鈴木 慎吾
出版者
京都大学
雑誌
基盤研究(B)
巻号頁・発行日
2010

古典漢文の白文(句読点や区切りや返り点のない単なる漢字の列)に対し、形態素解析をおこない、品詞情報つきの形態素に分解するシステムを構築した。また、形態素解析に必要な古典漢文コーパスと古典漢文辞書を、汎用の形態素解析エンジンMeCabに即した形式で作成し、WWWで公開した。これらと合わせ、古典漢文コーパスを構築するためのツール群も作成し、同じくWWWで公開した。