著者
荒木 哲郎 池原 悟 土橋 潤也 笹島 伸一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.6, pp.1116-1125, 1997-06-15
被引用文献数
4

べた書きかな文のかな漢字変換精度を向上させるためには,変換の過程で正解を漏らさないように,辞書から,かな文字列に含まれる単語候補をすべて抽出して組み合わせて評価することが必要であるが,文の長さが長くなるにつれて単語候補の組合せの数が増大し解析が困難となる問題がある.従来,べた書きの漢字かな混じり文の場合は,字種の変化点に着目して仮文節境界を決定する方法が提案されているが,この方法は字種が,かな文字に限定されるべた書きかな文には適用できない.かな文の場合も,何らかの方法で仮文節境界を見つけることができれば,解析の困難さの問題は解決できると期待される.本論文では,かな文字列の連鎖確率の変化点に着目した仮文節界の推定法を提案する.具体的には,マルコフ連鎖確率モデルによる仮文節境界の推定法を,(1)文節境界の学習の有無,(2)連鎖確率の変化点の再評価の有無,および(3)マルコフ連鎖確率の適用法の違いの3点に着目して,8通りに分けて評価した.その結果,文節境界を学習したデータを用いて連鎖確率の落ち込む点を抽出し,その点に文節境界の存在を仮定して再評価する方法が最も優れていること,また,その際,マルコフ連鎖確率は前方向,後方向を組み合わせて使用するのが良いことが分かった.この方法によって推定された仮文節境界の精度は,適合率94.0%,再現率76.8%で,従来,漢字かな混じり文の解析で使用されている仮文節境界推定法(字種の変化点に着目する方法)の精度よりも良ことから,提案したマルコフ連鎖確率モデルの方法はべた書きかな文の解析に有効と判断できる.In order to improve the precision to translate from the non-segmented "Kana" sentences into "Kanji-Kana" sentences,it is necessary to examine all of the word candidates extracted from the dictionary for the sentence.However,the amount of computer memories required for the translating processing explodes in many times,because the number of the combinations of candidated for "Kanji-Kana" words grows rapidly in propotion to the length of the sentence.The memory explosion can be prevented if a sentence is separated into "bunsetsu".Therefore,a method to correctly find the boundaries of bunsetsu are considered to be a key technique to improve the precision of "Kana"-"Kanji" translation.However,the useful method to find them are not known yet.This paper proposes a new method of finding provisional boundaries of "bunsetsu" for non-segmented "Kana" sentences using 2nd-order Markov model."Precision factor" and "Recall factor" for provisional boundaries of "bunsetsu" determined by this method,were experimentally evaluated using the statistical data for 70 issues of a daily Japanese newspaper.