- 著者
-
若林 啓
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌データベース(TOD) (ISSN:18827799)
- 巻号頁・発行日
- vol.7, no.2, pp.61-69, 2014-06-30
チャンキングは,単語の系列から名詞句や前置詞句といった浅い統語構造を抽出する技術であり,固有表現抽出や機械翻訳などで重要な前処理であると考えられている.これまでに提案されている多くのチャンキング手法は教師あり学習に基づいており,教師データに現れない文章表現を多く含むWeb上の文書には適用が難しい.本研究では,依存構造解析モデルの平坦近似に基づいた平坦近似依存文法モデル(FADG)を用いることで,チャンク間の局所的な統語構造を考慮した教師なしチャンキング手法を提案する.FADGは線形鎖モデルを階層的に接続した階層型隠れマルコフモデル(HHMM)の枠組みで形式化するため,HHMMの効率的な教師なし学習アルゴリズムを適用できる.実験により,提案モデルが局所的な統語構造を効果的に推定し,これによって高い精度で教師なしチャンキングを行えることを示す.Chunking is a natural language processing task to extract shallow syntactic structures like noun phrases or prepositional phrase, and it plays an important role in various applications such as named entity extraction and machine translation. Most chunking algorithms proposed so far are based on supervised learning, but they depend on the domain of supervision documents that often consist of news articles and are not effective for analyzing Web documents or microblogs. In this paper, we propose an unsupervised chunking method based on the Flat Approximated Dependency Grammar model (FADG) to capture local syntactic dependency structures between chunks. The FADG is formalized as a Hierarchical Hidden Markov Model (HHMM) and we can conduct the unsupervised learning of FADG efficiently by using a sophisticated inference algorithm for HHMMs. The experimental results show the effectiveness of the proposed method in chunking accuracy comparison.