- 著者
-
服部 峻
亀田 弘之
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
- 巻号頁・発行日
- vol.110, no.63, pp.7-12, 2010-05-21
- 参考文献数
- 18
- 被引用文献数
-
2
日々増大して行くWebという情報源から様々な知識を抽出するWebマイニングの研究が盛んに行われているが,Webテキストを形態素解析や意味解析など自然言語処理する際システムが用いる辞書に品詞や読み,意味などが未登録である「未知語」の存在が問題になる.本稿では,Webテキストに存在する多種なメディア,多様な話題,及び,投稿日時の3軸に依って,どのように未知語が分布しているか頻度調査を行った結果,Webテキストを自然言語処理するシステムにおいて,どんな分野で特に未知語処理が有用(必要)かなどの知見が得られたので報告する.