著者
伊東伸泰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.79, pp.37-44, 1993-09-16
被引用文献数
7

文字遷移確率モデルによる後処理は文節等が終了しなくとも処理が可能なため、辞書引き法と比較して実時間性の要求が大きいオンライン文字認識の後処理に適゛している。日本語では少数の表音文字(仮名)と数千個の表意文字(漢字)が併用される。このため日本語を遷移確率モデル(?gr)で記述しようとすると、漢字に対してはBigramですら相当量の記憶容量と学習用テキストを必要とし、かつ仮名に対しては(を大きくとらないと)十分な制約にならないというアンバランスが発生する。そこで文字遷移確率に品詞を属性として導入して、仮名に対してはより強い制約とすること、および漢字は品詞ごとのマクロ文字にグルーピング、縮退させることにより、このアンバランスを解消する手法を提案し、日本語のBigramを用いた効果的な文字認識後処理法を実現した。新聞約300万字を学習用テキストに用いた実験の結果、Perplexityが100以下になり、正解が候補内にある内の約半分が救済できることがわかった。This paper deals with a postprocessing method based on the n-gram approach for Japanese character recognition. In Japanese a small number of phonetic characters (Kana) and thousands of Kanji characters, which are ideographs, are used for describing ordinary sentences. In other words, Japanese sentences not only have a large character set, but also include characters with different entropies. It is therefore difficult to apply conventional methodologies based on n-grams to postprocessing in Japanese character recognition. In order to resolve the above two difficulties, we propose a method that uses parts of speech in the following ways. One is to reduce the number of Kanji characters by clustering them according to the parts of speech that each Kanji character is used in. Another is to increase the entropy of a Kana character by classifying it into more detailed subcategories with part-of-speech attributes. We applied a bigram approach based on these two techniques to a post-processing in online hand-written character recognition Our source text (learning data) included about 3 million characters from a Japanese national newspaper. Tests showed that our method reduced the perplexity of Japanese to less than 100 and resolved the imbalance between Kana and Kanji characters, and that it rectified about half of all substitution errors when the correct characters were among the candidates.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

こんな論文どうですか? Bigramによるオンライン漢字認識の文脈後処理手法(伊東伸泰),1993 http://id.CiNii.jp/MTbRL

収集済み URL リスト