- 著者
-
浅原 正幸
松本 裕治
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.43, no.3, pp.685-695, 2002-03-15
- 参考文献数
- 19
- 被引用文献数
-
10
自然言語処理の分野で最も基本的な処理として形態素解析がある.近年大量のタグ付きコーパスが整備され,コーパスに基づいた統計的形態素解析器が開発されてきた.しかし単純な統計的手法ではコーパスに出現しない例外的な言語現象に対処することができない.この問題に対処するため,本論文ではより柔軟な拡張統計モデルを提案する.例外的な現象に対応するために単語レベルの統計値を利用する.この拡張により,細かく分類された大量のタグを扱う際,必要なコーパスの量は増加する.一般に適切なコーパスの量で学習するために複数のタグを同値類へとグループ化することによりタグの数を減らすことが行われる.我々はこれを拡張し,マルコフモデルの条件付き確率計算について,先行する品詞タグ集合と,後続する品詞タグ集合とで,別々の品詞タグの同値類を導入するようにした.コーパスの量が不足する場合にtri-gramモデルを構築すると,学習データへの過学習が起きる.これを回避するために選択的tri-gramモデルを導入した.一方,これらの拡張のため,語彙化するタグやtri-gram文脈の選択を人手で設定することは困難である.そこで,この素性選択に誤り駆動の手法を導入し半自動化した.日本語・中国語形態素解析,英語品詞タグ付けについて評価実験を行い,これらの拡張の有効性を検証した.Recently, large-scale part-of-speech tagged corpora have becomeavailable, making it possible to develop statistical morphologicalanalyzers trained on these corpora.Nevertheless, statistical approaches in isolation cannot coverexceptional language phenomena which do not appear in the corpora.In this paper, we propose three extensions to statistical modelsin order to cope with such exceptional language phenomena.First of all, we incorporate lexicalized part-of-speech tags into the modelby using the word itself as a part-of-speech tag.Second, because the tag set becomes fragmented by the use of lexicalized tags, we reduce the size of the tag set by introducing a new type of grouping technique where the tag set ispartitioned creating two different equivalent classes for the events in theconditional probabilities of a Markov Model.Third, to avoid over-fitting, we selectively introduce tri-gram contexts into a bi-gram model.In order to implement these extensions, we introduce error-driven methods to semi-automatically determine the words to be used as lexicalized tags and the tri-gram contextsto be introduced.We investigate how our extension is effective through experiments onJapanese, Chinese and English.