- 著者
-
山田 寛康
工藤 拓
松本 裕治
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.43, no.1, pp.44-53, 2002-01-15
本稿では,機械学習アルゴリズムSupport Vector Machine(SVM)を用いて日本語固有表現抽出を学習する手法を提案し,抽出実験によりその有効性を検証する.固有表現抽出規則の学習には,単語自身,品詞,文字種などを素性として使用するため,その素性空間は非常に高次元となる.SVMは汎化誤差が素性空間の次元数に依存しないため,固有表現抽出規則の学習においても過学習を起こすことなく汎化性能の高い学習が実現できる.また多項式Kernel関数を適用することで複数の素性の組合せを考慮した学習が計算量を変えることなく実現できる.CRL固有表現データを用いてIREX固有表現抽出タスクに対して実験を行った結果,語彙,品詞,文字種,およびそれら任意の2つの組合せを考慮した場合,交差検定によりF値で約83という高精度の結果が得られた.