著者
三品 拓也 貞光 九月 山本 幹雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.9, pp.2168-2176, 2004-09-15
参考文献数
19
被引用文献数
1

本論文ではかな漢字変換誤り,特に同音異義語の選択誤りを対象とした日本語スペルチェックの方法を報告する.同音異義語誤りの判定には局所的な情報と大域的な情報の両者が必要であるが,本論文では大域的な情報をモデル化するために確率的LSAを用いることを提案・検討する.評価実験として,人為的に誤りを混入させたテストデータを用いた誤り検出・訂正実験を行った.局所的な情報のモデル化に従来からよく使われているngramモデルのみを利用した手法をベースラインとして比較した.ベースラインシステムでは再現率93.8%,適合率79.0%(F値85.8%)であった性能が,確率的LSAと組み合わせることにより再現率95.5%,適合率83.6%(F値89.2%)と改善された.We report a method of a Japanese spell checker for homophone errors which often occur in Japanese input process using a kana-kanji conversion system. Error detection methods need both of local and global information around a target word. In this paper, we propose and investigate use of a probabilistic LSA for modeling global information. We will show experimental results of performance to detect and correct homophone errors which are generated randomly. We use a simple method based on ngram models as a baseline system. Ngram models are common for Japanese spell checkers to model local information. In the results, although detection rates of the baseline system are 93.8% in recall, 79.0% in precision (85.8% in F-measure), those of a combination system of an ngram model and a probabilistic LSA increase to 95.5% in recall, 83.6% in precision (89.2% in F-measure).

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト