著者
中渡瀬 秀一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.95, no.601, pp.23-30, 1996-03-22
被引用文献数
4

本論文では統計的手法によって,分かち書きされていない日本語テキストから分かち書き境界を自動抽出する方法について述べる.分かち書きされていない日本語テキストから単語を得るためには,形態素解析が必要であるが,従来は単語辞書と統語規則を用いた処理をしている.このため新しい表現の獲得や暖昧性の解消などの問題があった.本手法ではNグラムの統計情報(頻度,頻度の期待値や分散)を用いる. まず,Nグラムの統計情報から文字列の正規化頻度を計算し,次にそれを用いて語の境界を獲得する.これによって字面処理だけによって,多くの分かち書き境界の認定が可能になった.EDR日本語コーパスを用いた実験の結果,得られた境界と形態素境界の適合率は82・68%,再現率は63.89%であった.

言及状況

Twitter (2 users, 2 posts, 0 favorites)

収集済み URL リスト