著者
彭渠江 高倉 佐和 古郡廷治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.20, pp.59-66, 2001-03-05

本稿では、単語の意味的曖昧性を解く手法の開発と、それをもとにして行った曖昧性解消の実験結果を報告する。テキスト中の単語の語義(sense)は、一定の文脈の中で、その単語とよく共起する他の単語と高い相互情報量をもつ。この特徴を使い、単語(w)が使われている文脈中で出現し、wと類似度の高い単語のベクトルと、wがもつr個の語義のそれぞれが使われている文脈中で出現し、wと類似度の高いk個の単語のベクトルとの間の相互情報量を計算し、その値が最も高くなった密度値と結合している語義をwの語義として採用する。この手法によって行った実験では、91.5%の高率で多義語の正しい語義を特定することができた。We describe a method and its experimental results for word sense disambiguation that is based on a statistical measure of word similaritites. First, we obtain contextual-similarity vectors for the senses of a polysemous word using a corpus. Second, we define also the contextual representation for the same word appearing in text. Third, we do a calculation of distributional matrix between each contextual-similarity vector and the contextual representation for the word to be disambiguated. Fourth and finally, comparing the values of distributional matrices, we select the sense with the highest value as the meaning of the polysemous word. An experiment shows that the rate of finding correct word senses exceeds over 91%.