著者
中村 俊久 黒橋 禎夫 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.47, pp.89-96, 1994-05-27
被引用文献数
2

自然言語処理において、形態素解析はべた書き文からあらゆる可能な単語を抽出しなければならないので、日本語単語の高速辞書検索は必要不可欠なことである。そこで本検索法では、まず登録する単語を部分文字列にわけ、それぞれわけられた文字列に単語の長さ情報をもたせて登録していくことを考えた。これにより辞書検索を部分文字列で行なうことができ、素早く単語の長さ情報を得て目的とする単語までスキップすることができるので、むだな辞書引き動作をなくすことができた。したがって、部分文字列を利用する簡単なシステムとなり、データ構造にはパトリシアを用いてまたデータの検索・挿入・削除にはハッシュ法を用いた高速な検索方法を提案する。なお、本検索法を用いた日本語形態素解析システム(MAN?)で、従来のシステム(MAN?m)との解析処理時間を比べると、かなり高速化できたことを確認した。It is important to realize high-speed retrieval method, because all possible words must be extracted from solid Japanese written sentences in Japanese morphological analysis. We intend to separate words to partial character string, then record them in the dictionary with character length information. It is possible to extract words quickly by using character length information, and remove useless retrieval action. For estimating this method, we build a simple retrieval system which makes use of partial character string information. In this system, we used Patricia as the data structure, and hashing for retrieval, registration, and deletion of words. JUMAN-NK, which uses our hi-speed retrieval system, can do Japanese morphological analysis 2.7 times as fast as the current system JUMAN-mcc.

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト