- 著者
-
佐藤 敏紀
橋本 泰一
奥村 学
- 雑誌
- 研究報告自然言語処理(NL) (ISSN:21888779)
- 巻号頁・発行日
- vol.2016-NL-229, no.15, pp.1-14, 2016-12-14
SNS やニュース記事で発見される新語や未知語の継続的な採録は,分かち書き用の辞書を作成して更新する際の課題のひとつである.我々は,固有名詞や複合語に対する高い網羅性と分かち書き精度を実現し続ける際に,コーパスではなく辞書として言語資源を追加することを選択した.そして,形態素より長い固有名詞や複合語を単一の見出し語として分かち書きし,品詞情報や読み仮名などを付与できる辞書を生成するためのシステムを構築した.さらに辞書生成システムを運用して短い周期での更新を長期間継続した.我々は,形態素より長い固有名詞や複合語を一語として分かち書きすること,及び,辞書生成システムを運用して短い周期で更新することの各効果を,ニュース記事を複数のカテゴリに分類する実験を通じて確認した.