- 著者
-
梅田 三千雄
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.40, no.3, pp.796-804, 1999-03-15
日本の苗字が備えている種々の性質を明らかにすることを目的として 苗字データベースを作成し その計量的分析を行った. ここでは より普遍的なデータの収集をねらいとして 約7.1万個から成る日本の苗字データベースを作成した. このデータベースをもとに 苗字に出現する文字の種類や頻度 文字位置とそこに出現する文字の種類など 文字と文字連接に関する統計データを求めた. これより 日本の苗字には文字位置によって 出現する文字の種類とその頻度に大きな偏りのあることが明らかになった. さらに 実際の使用頻度を考慮した分析として 市販の電話帳データベースを利用した検索により 苗字の使用頻度 苗字ならびに文字と文字連接のエントロピーなどを測定した. これより 苗字のエントロピーは英単語のそれにほぼ等しいことが明らかになった. また ここで得られた苗字の諸性質は 宛名や個人情報の文字認識において 苗字部分の文字切り出しでの知識として利用したり 認識対象文字の種類を決定 限定したりするのに利用することが可能であり 認識精度の向上につながることが期待される.