著者
浅原 正幸 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.5, pp.1442-1450, 2004-05-15

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組合せによる.形態素解析出力結果をそのままチャンカの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn 次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカにより決定的に固有表現となる語の語境界を推定する.CRL 固有表現データを用いて評価実験(交差検定5-fold )を行った結果,F 値0.87 という高精度の結果が得られた.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

日本語固有表現抽出における分かち書き問題の解決 https://t.co/jqKREtWCSs >これ考え方がkyteaみたい

収集済み URL リスト