著者
石田 栄美 宮田 洋輔 神門 典子 上田 修一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2006, no.33, pp.85-92, 2006-03-22

書名だけでなく目次や帯情報を用いて,図書を日本十進分類法の分類カテゴリに自動分類する実験を行った。分類手法には,相対出現率と相互情報量にもとづく重み付けとSupport Vector Machine(SVM)による手法を用いた。「BOOK」データベースとNII-CATデータを統合した24 000件を用いて学習させたところ,重み付けに相対出現率と相互情報量を用いた場合は,書名に加えて目次と帯情報を用いた場合の効果が認められた。また,機械学習手法よりも,統計的手法のほうが有効であった。分類カテゴリの分野ごとの再現率を調べたところ,分野によって再現率に大きな差があった。さらに,帯情報などが有効な分野もあり,書名,目次,帯を用いた効果が分野ごとに異なることが明らかになった。In this paper, we describe methods of classifying Japan MARC records to class number of Nippon Decimal Classification. We compare the performance of three categorization method, based on mutual information(MI), relative frequency and SVM. In each method, training data are title and table of contents and blurb on the flap in Japan MARC records. The experimental results show that the best performance is MI using title and table of contents and OBI, but other methods are not. In failure analysis, we found the performance depends on subject of class number.

言及状況

はてなブックマーク (1 users, 1 posts)

Twitter (2 users, 2 posts, 1 favorites)

@cumulus_excel 末尾の論文でも、BOOKSデータベースの目次や帯情報は分類精度に貢献しなかったみたいです。http://t.co/uXRIPK8Q

Wikipedia (1 pages, 1 posts, 1 contributors)

収集済み URL リスト