- 著者
-
永田 昌明
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.1997, no.85, pp.9-16, 1997-11-12
- 参考文献数
- 14
- 被引用文献数
-
4
本稿では、小さな単語リストと大量のプレーンテキストから日本語の単語分割プログラムを作成する方法を提案する。本手法は、単語単位の統計的言語モデル、初期値推定手続き、再推定手続きから構成される。まず文字種に関するヒューリスティクスを用いて訓練テキストから抽出した単語候補を単語リストに加え、単語リスト中の単語と最長一致する訓練テキスト中の文字列の頻度から単語頻度の初期値を推定する。次に単語頻度に基づく統計的言語モデルを用いて訓練テキストを単語分割し、単語リストと単語頻度を再推定する。1719個の単語と390万文字のテキストに対して本手法を用いて単語分割プログラムを訓練したところ、単語分割精度は再現率86.3%,適合率82.5%であった。We present a self-organized method to build a stochastic Japanese word segmenter from a small number of basic words and a large amount of unsegmented training text. It consists of a word-based statistical language model, an initial estimation procedure, and a re-estimation procedure. Initial word frequencies are estimated by counting all possible longest match strings between the training text and the word list. The initial word list is augmented by identifying words in the training text using a heuristic rule based on character type. The word-based language model is then re-estimated to filter out inappropriate word hypotheses. When the word segmenter is trained on 3.9M character texts and 1719 initial words, its word segmentation accuracy is 86.3% recall and 82.5% precision.