- 著者
-
三枝 優一
古井 陽之助
速水 治夫
- 雑誌
- 情報処理学会研究報告データベースシステム(DBS)
- 巻号頁・発行日
- vol.2007, no.6(2007-DBS-141), pp.77-82, 2007-01-26
辞書を用いる形態素解析においては,時代の流れと共に現われ変遷していく口語表現・省略表現・若者言葉等の新語を速やかに辞書に取り入れることで解析精度を高められると期待できる.そこで本研究では,Web上のblogを中心とした文書集合を字種別に切り分け新語候補とし,それらの出現頻度を既に辞書に登録されている語のそれと照合し評価することにより,新語を抽出する手法を提案する.実験では,カタカナのみ,あるいは漢字のみで構成される新語は,複合語を含め80%以上の精度で抽出することができた.また,出現頻度の低い新語についても一部抽出することができた.今後の課題としては,収集した新語の動的な品詞同定と,新語を辞書に取り入れることによる形態素解析精度向上の検証が挙げられる.