著者
荒木 哲郎 池原 悟 塚原 信幸 小松 康則 田川 崇史 橋本 憲久
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.6, pp.1516-1528, 2000-06-25
被引用文献数
10

漢字OCR, ワープロ, 音声認識装置などの入力装置を使用して計算機に入力された日本語文には, 通常, 誤字, 脱落・誤挿入文字などの誤りが含まれるため, これらの誤りを自動的に検出し訂正する技術が期待されている.本論文では, 誤字誤り, 誤挿入誤り, 及び脱落誤り(いずれも誤りは1文字以上)を対象に, m重マルコフ連鎖モデルを用いて誤りの種別を識別し, 誤り文字列を訂正する方法を提案する.また, 本手法の効果を検証するため, 2重マルコフ連鎖モデルを利用して, 漢字仮名交じり表記された新聞記事文(1, 200文)を対象に, それらが誤字, 脱落文字及び誤挿入文字を含む場合(いずれも誤りは, 擬似的に生成された1文字または2文字)について, 誤り種別及び文内の誤り位置と文字数を自動的に検出, 並びに訂正する実験を行った.その結果, オープンデータの誤字, 誤挿入, 脱落の誤りを, 単に, 誤りとして検出(これらの3種のいずれかの誤りとして検出)する精度は, それぞれ, 1文字の誤字または誤挿入誤りの場合は適合率77.2%, 再現率95.0%, 2文字の誤字または誤挿入誤りの場合は適合率79.3%, 再現率99.5%, また, 脱落誤りの場合は適合率61.3%, 再現率36.5%の精度で検出できることがわかった.更に, 誤りの種別や誤り長を含めた検出精度は, 誤字または誤挿入の1文字誤りの場合は, 検出が適合率60.1%, 再現率73.0%で行うことができ, 更に訂正は誤字の場合が適合率41.2%, 再現率50.0%, また誤挿入の場合が適合率41.9%再現率52.0%の精度で自動的にできることがわかった.これと比べて, 脱落誤りの検出と訂正は容易ではないが, 検出が適合率54.6%, 再現率32.5%, また訂正が1文字の場合には適合率29.4%, 再現率17.5%の精度で行えることがわかった.オープンデータとクローズドデータによる適合率, 再現率の差は, 標本量の増加に伴い, 新聞記事文5年分の付近で, かなり接近してくることがわかった.
著者
荒木 哲郎 池原 悟 塚原 信幸
雑誌
全国大会講演論文集
巻号頁・発行日
vol.47, pp.109-110, 1993-09-27

漢字OCRやWP(ワードプロセッサー)さらには音声認識装置などの入力装置を用いて計算機入力を行った日本語文には、一般に誤字、脱落及び挿入誤りが含まれるために、これらの誤りを自動的に検出し正しい日本語文に訂正する技術が必要となる。これまでに、日本語の誤字を対象に単語解析プログラムを用いた誤字検出法並びに1重マルコフモデルによる訂正方法がありまた、日本語文節内の連続した脱落、挿入誤りに対して、m重マルコフ連鎖確率を用いて誤り位置の検出並びに正しい日本語文に訂正するアルゴリズムが提案されている。本論文では、更に、誤字に対しても誤り位置の検出並びに訂正が行えるように、そのアルゴリズムを拡張する方法を示す。さらにその有効性を確認するために、1文字並びに2文字の置換誤りを埋め込んだ新聞記事400文節を用いて、文節内の誤り位置を検出し、訂正する実験を行う。