著者
谷澤 琢朗 山本 昭
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.26, no.2, pp.158-164, 2016

日本語のテキストを対象に、漢字の部首による分類の可能性を調査した。Excel マクロを作成し、テキストの漢字部分を部首に変換した。部首の出現頻度、頻度順位を異なる分野のテキストにおいて比較した。タイトルと全文とで部首頻度、頻度順位は同様の傾向を示した。「頻出7部首」はどの主題分野においても上位に現れた。図書タイトルでは、分野に特徴的に多く/少なく出現する部首が見られた。同一雑誌を一冊単位で分析すると、どの号もほぼ順位は一定であった。一方、雑誌の個々の記事単位では差が見られた。バルクなテキストの分類に対して部首の利用が有効であることが示唆された。