著者
荒木 哲郎 池原 悟 土橋 潤也 笹島 伸一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.6, pp.1116-1125, 1997-06-15
被引用文献数
4

べた書きかな文のかな漢字変換精度を向上させるためには,変換の過程で正解を漏らさないように,辞書から,かな文字列に含まれる単語候補をすべて抽出して組み合わせて評価することが必要であるが,文の長さが長くなるにつれて単語候補の組合せの数が増大し解析が困難となる問題がある.従来,べた書きの漢字かな混じり文の場合は,字種の変化点に着目して仮文節境界を決定する方法が提案されているが,この方法は字種が,かな文字に限定されるべた書きかな文には適用できない.かな文の場合も,何らかの方法で仮文節境界を見つけることができれば,解析の困難さの問題は解決できると期待される.本論文では,かな文字列の連鎖確率の変化点に着目した仮文節界の推定法を提案する.具体的には,マルコフ連鎖確率モデルによる仮文節境界の推定法を,(1)文節境界の学習の有無,(2)連鎖確率の変化点の再評価の有無,および(3)マルコフ連鎖確率の適用法の違いの3点に着目して,8通りに分けて評価した.その結果,文節境界を学習したデータを用いて連鎖確率の落ち込む点を抽出し,その点に文節境界の存在を仮定して再評価する方法が最も優れていること,また,その際,マルコフ連鎖確率は前方向,後方向を組み合わせて使用するのが良いことが分かった.この方法によって推定された仮文節境界の精度は,適合率94.0%,再現率76.8%で,従来,漢字かな混じり文の解析で使用されている仮文節境界推定法(字種の変化点に着目する方法)の精度よりも良ことから,提案したマルコフ連鎖確率モデルの方法はべた書きかな文の解析に有効と判断できる.In order to improve the precision to translate from the non-segmented "Kana" sentences into "Kanji-Kana" sentences,it is necessary to examine all of the word candidates extracted from the dictionary for the sentence.However,the amount of computer memories required for the translating processing explodes in many times,because the number of the combinations of candidated for "Kanji-Kana" words grows rapidly in propotion to the length of the sentence.The memory explosion can be prevented if a sentence is separated into "bunsetsu".Therefore,a method to correctly find the boundaries of bunsetsu are considered to be a key technique to improve the precision of "Kana"-"Kanji" translation.However,the useful method to find them are not known yet.This paper proposes a new method of finding provisional boundaries of "bunsetsu" for non-segmented "Kana" sentences using 2nd-order Markov model."Precision factor" and "Recall factor" for provisional boundaries of "bunsetsu" determined by this method,were experimentally evaluated using the statistical data for 70 issues of a daily Japanese newspaper.
著者
荒木 哲郎 池原 悟 土橋 潤也 堂元一頼
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.61, pp.9-16, 1993-07-09
被引用文献数
2

2重マルコフモデルを用いた日本語誤字の誤り訂正法を、マルコフモデルを適用する位置に着目して分類すると、検出された誤り音節または、漢字かな文字に限定してマルコフモデルを一回適用する方法(局所法)と、誤り音節または漢字かな文字を含む文字列全体に適用する方法(全域法)があり、前者は後者に比べて少ない処哩時間で行える特徴がある。これまでに局所法については、文節並びに単語境界で検出された音節、漢字かな文字の誤りを訂正する問題に対して、誤り位置に応じて順方向、中間、逆方向タイプの2重マルコフモデルを適用する方法の有効性が報告されている[9]。本論文では、全域法の誤り訂正能力を定量的に評価し、局所法との比較を行う。全域法においては、三つのマルコフ連鎖確率がそれぞれ中心的な役割を果たすことに着目して、これらのマルコフ連鎖確率を単独に用いて誤り訂正を行う三つのタイプの局所法について、文節境界における誤り文字の位置(文節の先頭誤り、2番目及び3番目以降)に関する誤り訂正の評価を行い、全域法と局所法の比較を行う。新聞記事77日分の統計データを用いて、順方向、逆方向並びに中間タイプの2重マルコフ連鎖確率を求め、日本語音節文及び漢字かな交じり文の2000箇所の誤りに対して、局所法と全域法による誤り訂正実験を行った。その結果、()全域法では、順方向タイプの2重マルコフモデルが、常に他のタイプよりも優っていること、また ()全域法は局所法よりも優っていることなどがわかった。This paper investigates two methods to correct erroneous syllables and kanji-kana characters located at the boundaries of "bunsetsu" using three types of 2nd-order Markov model, called as forward, backward and middle type respectively. One is called the local method which is to correct erroneous characters using Markov model only once. The other is the global method which is to correct erroneous syllables and kanji-kana characters by applying Markov model to all the string of syllables and of kannji-kana characters. According to the experiment using 70 issues of a daily Japanese newspaper, the following results was obtained. 1. In the case of global method, the method to correct erroneous syllables and kanji-kana characters using Markov model of foward type is always superior to that of the other types. 2. The capability of error correction using the global method is always superior to that of the local method.