- 著者
-
荒木 哲郎
池原 悟
土橋 潤也
堂元一頼
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.1993, no.61, pp.9-16, 1993-07-09
- 被引用文献数
-
2
2重マルコフモデルを用いた日本語誤字の誤り訂正法を、マルコフモデルを適用する位置に着目して分類すると、検出された誤り音節または、漢字かな文字に限定してマルコフモデルを一回適用する方法(局所法)と、誤り音節または漢字かな文字を含む文字列全体に適用する方法(全域法)があり、前者は後者に比べて少ない処哩時間で行える特徴がある。これまでに局所法については、文節並びに単語境界で検出された音節、漢字かな文字の誤りを訂正する問題に対して、誤り位置に応じて順方向、中間、逆方向タイプの2重マルコフモデルを適用する方法の有効性が報告されている[9]。本論文では、全域法の誤り訂正能力を定量的に評価し、局所法との比較を行う。全域法においては、三つのマルコフ連鎖確率がそれぞれ中心的な役割を果たすことに着目して、これらのマルコフ連鎖確率を単独に用いて誤り訂正を行う三つのタイプの局所法について、文節境界における誤り文字の位置(文節の先頭誤り、2番目及び3番目以降)に関する誤り訂正の評価を行い、全域法と局所法の比較を行う。新聞記事77日分の統計データを用いて、順方向、逆方向並びに中間タイプの2重マルコフ連鎖確率を求め、日本語音節文及び漢字かな交じり文の2000箇所の誤りに対して、局所法と全域法による誤り訂正実験を行った。その結果、()全域法では、順方向タイプの2重マルコフモデルが、常に他のタイプよりも優っていること、また ()全域法は局所法よりも優っていることなどがわかった。This paper investigates two methods to correct erroneous syllables and kanji-kana characters located at the boundaries of "bunsetsu" using three types of 2nd-order Markov model, called as forward, backward and middle type respectively. One is called the local method which is to correct erroneous characters using Markov model only once. The other is the global method which is to correct erroneous syllables and kanji-kana characters by applying Markov model to all the string of syllables and of kannji-kana characters. According to the experiment using 70 issues of a daily Japanese newspaper, the following results was obtained. 1. In the case of global method, the method to correct erroneous syllables and kanji-kana characters using Markov model of foward type is always superior to that of the other types. 2. The capability of error correction using the global method is always superior to that of the local method.