著者
王玉馨 清水 伸幸 吉田 稔 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.46, pp.7-14, 2008-05-15
被引用文献数
3

コーパスから同義語の対を抽出するための一般的な方法では、通常二つ単語間の類似度 (例えば、cosine 類似度) が必要である。類似度を使用することで、特定のクエリ単語に対しての類似語ランキングが可能になり、同義語候補リストから正しい同義語が認定できる。この論文では、それに加えて、単語類似度ネットワークを分析する新しい方法を提案する。単語類似度ネットワークでは閾値以上の類似度をアークとして、単語をノードとして定義する。提案する自動同義語候補選択ためのランク閾値(Rank Threshold for synonym candidate Selection RTS) によって類似度の順位が閾値以内のアークが構成される単語類似度ネットワークはスケールフリーグラフである。 この性質に基づいて、我々は新しい同義語候補のリランキング手法を提案する。これを相互リランキング法 (Mutual Re-ranking Method MRM) と呼ぶ。同義語獲得における提案手法の有効性を示すために MRM 方法を Reuters-21578 に適用した。 実験結果によって、RTS と MRM が同義語抽出の品質の向上させることが示された。Popular methods for acquiring synonymous word pairs from a corpus usually require a similarity metric between two words, such as cosine similarity. This metric enables us to retrieve words similar to a query word, and we identify true synonyms from the list of synonym candidates. Instead of stopping at this point, we propose to go further by analyzing word similarity network that are induced by the similarity metric for the edges with the similarities that are ranked as top threshold number. By introducing the rank threshold for synonym candidate selection method (RTS), our analysis shows that the network exhibits a scale-free property. This insight obtained from the network leads us to a method for re-ranking the synonym candidates -a mutual re-ranking method (MRM). We apply our methods to Reuters-21578 to show the generality of the methods on synonym acquisition. The results show that RTS and MRM boosts the quality of acquired synonyms.