著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.323-331, 2018-02-15

古典中国語(漢文)の解析手法として,MeCabを用いた形態素解析手法を提案する.本手法では,漢文の動賓構造を表現すべく,4階層の「品詞」からなる新たな品詞体系を構築し,それに基づくMeCab漢文コーパスを設計した.合わせて,MeCab漢文コーパスを入力するための専用ツールとして,XEmacs CHISEをベースとしたコーパス入力ツールを開発した.また,MeCab漢文コーパスを効果的に管理し,さらには品詞体系のリファクタリングを行うべく,MeCab漢文コーパスのLinked Data化を行い,WWW上で公開した.さらに,MeCabを用いた漢文形態素解析の応用として,漢文における固有表現の自動抽出に挑戦した.結果として,地名の自動抽出は高精度に行うことができたが,官職・人名の自動抽出はそれぞれに課題が残った.A method to analyze classical Chinese texts is proposed. In the method, we use our original morphological analyzer based on MeCab. We propose a new four-level word-class system to represent the predicate-object structure of classical Chinese. In order to make a corpus for classical Chinese on MeCab, we have constructed a MeCab-corpus editor based on XEmacs CHISE. In order to control the corpus effectively, and to refactor our four-level word-class system, we have converted it into Linked Data on WWW. As an applied study for our morpholgical analysis of classical Chinese texts, we have tried to extract named entities: names of places, job titles, and names of people. As a result we are able to extract names of places from classical Chinese texts almost perfectly. But we have found some difficulties to extract job titles or names of people.

言及状況

Twitter (3 users, 3 posts, 1 favorites)

【最近出た論文】師茂樹 文化遺産学科教授:安岡孝一、ウィッテルン・クリスティアン、守岡知彦、池田巧、山崎直樹、二階堂善弘、鈴木慎吾、師茂樹「古典中国語(漢文)の形態素解析とその応用」(『情報処理学会論文誌』59(2), 2018)https://t.co/Dz5CPhGJjH

収集済み URL リスト