著者
山田 寛康 工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.1, pp.44-53, 2002-01-15
参考文献数
16
被引用文献数
39

本稿では,機械学習アルゴリズムSupport Vector Machine(SVM)を用いて日本語固有表現抽出を学習する手法を提案し,抽出実験によりその有効性を検証する.固有表現抽出規則の学習には,単語自身,品詞,文字種などを素性として使用するため,その素性空間は非常に高次元となる.SVMは汎化誤差が素性空間の次元数に依存しないため,固有表現抽出規則の学習においても過学習を起こすことなく汎化性能の高い学習が実現できる.また多項式Kernel関数を適用することで複数の素性の組合せを考慮した学習が計算量を変えることなく実現できる.CRL固有表現データを用いてIREX固有表現抽出タスクに対して実験を行った結果,語彙,品詞,文字種,およびそれら任意の2つの組合せを考慮した場合,交差検定によりF値で約83という高精度の結果が得られた.In this paper, we propose a method for Japanese named entity (NE)extraction using Support Vector Machines (SVM). The generalizationperformance of SVM does not depend on the size of dimensions of thefeature space, even in a high dimensional feature space, such as namedentity extraction task using lexical entries, part-of-speech tags andcharacter types of words as the primitive features. Furthermore, SVMcan induce an optimal classifier which considers the combination offeatures by virtue of polynomial kernel functions. We apply the methodto IREX NE task using CRL Named Entities data. The cross validationresult of the F-value being 83 shows the effectiveness of the method.

言及状況

はてなブックマーク (4 users, 4 posts)

SVM で固有表現抽出。汎化誤差が特徴次元に依存しない。
[support-vector-machine][supervised-learning][cluster-analysis][statistics][analytics][algorithm][machine-learning]
[namedEntity][SupportVectorMachine]

Twitter (2 users, 2 posts, 1 favorites)

「SVM」でヒットしたのはこんな論文です!Support Vector Machineを用いた日本語固有表現抽出(山田ら) http://t.co/uqwvMn2fmN
ほむ。 QT CiNii 論文 -  Support Vector Machineを用いた日本語固有表現抽出 http://t.co/fCkxCHmd

収集済み URL リスト