- 著者
梅田 三千雄
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.40, no.3, pp.796-804, 1999-03-15
日本の苗字が備えている種々の性質を明らかにすることを目的として 苗字データベースを作成し その計量的分析を行った. ここでは より普遍的なデータの収集をねらいとして 約7.1万個から成る日本の苗字データベースを作成した. このデータベースをもとに 苗字に出現する文字の種類や頻度 文字位置とそこに出現する文字の種類など 文字と文字連接に関する統計データを求めた. これより 日本の苗字には文字位置によって 出現する文字の種類とその頻度に大きな偏りのあることが明らかになった. さらに 実際の使用頻度を考慮した分析として 市販の電話帳データベースを利用した検索により 苗字の使用頻度 苗字ならびに文字と文字連接のエントロピーなどを測定した. これより 苗字のエントロピーは英単語のそれにほぼ等しいことが明らかになった. また ここで得られた苗字の諸性質は 宛名や個人情報の文字認識において 苗字部分の文字切り出しでの知識として利用したり 認識対象文字の種類を決定 限定したりするのに利用することが可能であり 認識精度の向上につながることが期待される.In this paper, Japanese family names database is constructed and several characteristics of Japanese family names are extracted from this database to be utilized in the process of characters recognition. This database contains 71452 kinds of Japanese family names. For example, one to six characters are used in family names and 80% of names consist of two characters. All Japanese family names are composed of 3796 character categories. There are 1400 character categories which are used more than 10 times in the names. When 1000 character categories are selected in order of appearance frequency, the rate of those characters used in the names is to be 92%. The 84% of all the family names are perfectly constructed by high frequency 1000 characters. Furthermore, by accessing Japanese telephone numbers database, some characteristics of family names considered the usage frequency are extracted samely. From these metrical analysis, the lack of precision in the pattern recognition algorithm can be recovered by using such characteristics of Japanese family names.