著者
村上 明子 那須川 哲哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.117-124, 2004-07-16
被引用文献数
1

大量のテキストを分析し傾向を捉えるテキストマイニングにおいて、分析の観点で同義表現とみなせる語を代表的な表現に集約することは、表層表現の出現頻度のみで分析をするよりも有効である。そのためには、一般的な同義表現のみならず、分析対象の文書と目的に特化した同義表現の辞書が必要になる。本稿では、筆者別に分けられた文書集合を、表現の一貫性が保たれた文書集合として用いることにより、同義表現抽出の精度を向上させる手法を示す。我々は同一の筆者であれば一つの対象を表現するために、常に同じ表現を使う傾向があると仮定した。この仮定によれば、筆者別に分けられた文書内で似た文脈をもつ語あるいは表現のほとんどが類義表現であっても同義表現ではないといえる。コールセンターの対応記録データを用いて実験を行った結果、この仮定と本手法の有効性が示された。We present a text mining method for finding synonymous expressions based on the distributional hypothesis in a set of coherent corpora. This paper proposes a new methodology to improve the accuracy of a term aggregation system using each author's text as a coherent corpus. Our approach is based on the idea that one person tends to use one expression for one meaning. According to our assumption, most of the words with similar context features in each author's corpus tend not to be synonymous expressions. Our proposed method improves the accuracy of our term aggregation system, showing that our approach is successful.

言及状況

はてなブックマーク (1 users, 1 posts)

via http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/ueno0401.pdf

収集済み URL リスト