著者
伊藤敬彦 堀部 史郎 新保仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.51, pp.181-188, 2003-05-22
被引用文献数
2

ある文献が他のどの文献を参照しているか、という文献の参照情報は、その文献の参考文献一覧の各一文(参考文献文)が指し示している文献を、文献データベース(著者、題目、掲載誌等からなる文献を表す文献データ集合)中から同定することで獲得できる。この同定を、参考文献文と文献データの単なる文字列の完全一致判定で行なうことはできない。参考文献文に表記の多様性や誤りが存在するためである。本稿では参照情報の自動獲得手法を提案する。始めに、単一のベクトル空間とその上での類似度を用いて粗く候補を絞る。次に、参考文献と文候補が同一の文献であるかを多数の尺度に基づく類似度を特徴量として判定する。複数の尺度それぞれの重みを人手でつけることは現実的ではないため本稿ではサポートベクターマシーンを用い、各尺度の最適な重みを自動で算出した結果、F値0.992が得られた。Citation indices are invaluable for the retrieval of related papers. With the increase in the volume of scientific literature, a demand is growing for methods to automatically construct such indices. However, a naive method such as using exact string matches makes errors because of the various ways references can be formatted. In this paper, we propose a new citation indexing method that uses many features to evaluate similarity between references and bibligoraphic data. Unlike the previous work which typically uses only a few features to compute similarity, our method computes a weighted sum of more than 1200 feature values, each of which reflects one of the diverse similarity measures. An F-measure of 0.992 was obtained when Support Vector Machines were used to compute optimal weights to each feature.