著者
荒木 哲郎 池原 悟 土橋 潤也 笹島 伸一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.6, pp.1116-1125, 1997-06-15
被引用文献数
4

べた書きかな文のかな漢字変換精度を向上させるためには,変換の過程で正解を漏らさないように,辞書から,かな文字列に含まれる単語候補をすべて抽出して組み合わせて評価することが必要であるが,文の長さが長くなるにつれて単語候補の組合せの数が増大し解析が困難となる問題がある.従来,べた書きの漢字かな混じり文の場合は,字種の変化点に着目して仮文節境界を決定する方法が提案されているが,この方法は字種が,かな文字に限定されるべた書きかな文には適用できない.かな文の場合も,何らかの方法で仮文節境界を見つけることができれば,解析の困難さの問題は解決できると期待される.本論文では,かな文字列の連鎖確率の変化点に着目した仮文節界の推定法を提案する.具体的には,マルコフ連鎖確率モデルによる仮文節境界の推定法を,(1)文節境界の学習の有無,(2)連鎖確率の変化点の再評価の有無,および(3)マルコフ連鎖確率の適用法の違いの3点に着目して,8通りに分けて評価した.その結果,文節境界を学習したデータを用いて連鎖確率の落ち込む点を抽出し,その点に文節境界の存在を仮定して再評価する方法が最も優れていること,また,その際,マルコフ連鎖確率は前方向,後方向を組み合わせて使用するのが良いことが分かった.この方法によって推定された仮文節境界の精度は,適合率94.0%,再現率76.8%で,従来,漢字かな混じり文の解析で使用されている仮文節境界推定法(字種の変化点に着目する方法)の精度よりも良ことから,提案したマルコフ連鎖確率モデルの方法はべた書きかな文の解析に有効と判断できる.In order to improve the precision to translate from the non-segmented "Kana" sentences into "Kanji-Kana" sentences,it is necessary to examine all of the word candidates extracted from the dictionary for the sentence.However,the amount of computer memories required for the translating processing explodes in many times,because the number of the combinations of candidated for "Kanji-Kana" words grows rapidly in propotion to the length of the sentence.The memory explosion can be prevented if a sentence is separated into "bunsetsu".Therefore,a method to correctly find the boundaries of bunsetsu are considered to be a key technique to improve the precision of "Kana"-"Kanji" translation.However,the useful method to find them are not known yet.This paper proposes a new method of finding provisional boundaries of "bunsetsu" for non-segmented "Kana" sentences using 2nd-order Markov model."Precision factor" and "Recall factor" for provisional boundaries of "bunsetsu" determined by this method,were experimentally evaluated using the statistical data for 70 issues of a daily Japanese newspaper.
著者
荒木 哲郎 池原 悟 塚原 信幸 小松 康則 田川 崇史 橋本 憲久
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.6, pp.1516-1528, 2000-06-25
被引用文献数
10

漢字OCR, ワープロ, 音声認識装置などの入力装置を使用して計算機に入力された日本語文には, 通常, 誤字, 脱落・誤挿入文字などの誤りが含まれるため, これらの誤りを自動的に検出し訂正する技術が期待されている.本論文では, 誤字誤り, 誤挿入誤り, 及び脱落誤り(いずれも誤りは1文字以上)を対象に, m重マルコフ連鎖モデルを用いて誤りの種別を識別し, 誤り文字列を訂正する方法を提案する.また, 本手法の効果を検証するため, 2重マルコフ連鎖モデルを利用して, 漢字仮名交じり表記された新聞記事文(1, 200文)を対象に, それらが誤字, 脱落文字及び誤挿入文字を含む場合(いずれも誤りは, 擬似的に生成された1文字または2文字)について, 誤り種別及び文内の誤り位置と文字数を自動的に検出, 並びに訂正する実験を行った.その結果, オープンデータの誤字, 誤挿入, 脱落の誤りを, 単に, 誤りとして検出(これらの3種のいずれかの誤りとして検出)する精度は, それぞれ, 1文字の誤字または誤挿入誤りの場合は適合率77.2%, 再現率95.0%, 2文字の誤字または誤挿入誤りの場合は適合率79.3%, 再現率99.5%, また, 脱落誤りの場合は適合率61.3%, 再現率36.5%の精度で検出できることがわかった.更に, 誤りの種別や誤り長を含めた検出精度は, 誤字または誤挿入の1文字誤りの場合は, 検出が適合率60.1%, 再現率73.0%で行うことができ, 更に訂正は誤字の場合が適合率41.2%, 再現率50.0%, また誤挿入の場合が適合率41.9%再現率52.0%の精度で自動的にできることがわかった.これと比べて, 脱落誤りの検出と訂正は容易ではないが, 検出が適合率54.6%, 再現率32.5%, また訂正が1文字の場合には適合率29.4%, 再現率17.5%の精度で行えることがわかった.オープンデータとクローズドデータによる適合率, 再現率の差は, 標本量の増加に伴い, 新聞記事文5年分の付近で, かなり接近してくることがわかった.
著者
荒木 哲郎 池原 悟 塚原 信幸
雑誌
全国大会講演論文集
巻号頁・発行日
vol.47, pp.109-110, 1993-09-27

漢字OCRやWP(ワードプロセッサー)さらには音声認識装置などの入力装置を用いて計算機入力を行った日本語文には、一般に誤字、脱落及び挿入誤りが含まれるために、これらの誤りを自動的に検出し正しい日本語文に訂正する技術が必要となる。これまでに、日本語の誤字を対象に単語解析プログラムを用いた誤字検出法並びに1重マルコフモデルによる訂正方法がありまた、日本語文節内の連続した脱落、挿入誤りに対して、m重マルコフ連鎖確率を用いて誤り位置の検出並びに正しい日本語文に訂正するアルゴリズムが提案されている。本論文では、更に、誤字に対しても誤り位置の検出並びに訂正が行えるように、そのアルゴリズムを拡張する方法を示す。さらにその有効性を確認するために、1文字並びに2文字の置換誤りを埋め込んだ新聞記事400文節を用いて、文節内の誤り位置を検出し、訂正する実験を行う。
著者
荒木 哲郎 池原 悟 土橋 潤也 堂元一頼
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.61, pp.9-16, 1993-07-09
被引用文献数
2

2重マルコフモデルを用いた日本語誤字の誤り訂正法を、マルコフモデルを適用する位置に着目して分類すると、検出された誤り音節または、漢字かな文字に限定してマルコフモデルを一回適用する方法(局所法)と、誤り音節または漢字かな文字を含む文字列全体に適用する方法(全域法)があり、前者は後者に比べて少ない処哩時間で行える特徴がある。これまでに局所法については、文節並びに単語境界で検出された音節、漢字かな文字の誤りを訂正する問題に対して、誤り位置に応じて順方向、中間、逆方向タイプの2重マルコフモデルを適用する方法の有効性が報告されている[9]。本論文では、全域法の誤り訂正能力を定量的に評価し、局所法との比較を行う。全域法においては、三つのマルコフ連鎖確率がそれぞれ中心的な役割を果たすことに着目して、これらのマルコフ連鎖確率を単独に用いて誤り訂正を行う三つのタイプの局所法について、文節境界における誤り文字の位置(文節の先頭誤り、2番目及び3番目以降)に関する誤り訂正の評価を行い、全域法と局所法の比較を行う。新聞記事77日分の統計データを用いて、順方向、逆方向並びに中間タイプの2重マルコフ連鎖確率を求め、日本語音節文及び漢字かな交じり文の2000箇所の誤りに対して、局所法と全域法による誤り訂正実験を行った。その結果、()全域法では、順方向タイプの2重マルコフモデルが、常に他のタイプよりも優っていること、また ()全域法は局所法よりも優っていることなどがわかった。This paper investigates two methods to correct erroneous syllables and kanji-kana characters located at the boundaries of "bunsetsu" using three types of 2nd-order Markov model, called as forward, backward and middle type respectively. One is called the local method which is to correct erroneous characters using Markov model only once. The other is the global method which is to correct erroneous syllables and kanji-kana characters by applying Markov model to all the string of syllables and of kannji-kana characters. According to the experiment using 70 issues of a daily Japanese newspaper, the following results was obtained. 1. In the case of global method, the method to correct erroneous syllables and kanji-kana characters using Markov model of foward type is always superior to that of the other types. 2. The capability of error correction using the global method is always superior to that of the local method.