著者
深谷 亮 山村 毅 工藤 博章 松本 哲也 竹内 義則 大西 昇
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.73-79, 2003-01-20
被引用文献数
2

本研究では,他人の文章を真似して作成された文章を発見するための文章間類似度の計算法を提案する.真似した文章の多くは,もとの文章に含まれる文と類似した文から構成され,類義語・同義語へ言い換えることなどにより表層的な表現を変化させる.そこで,本手法では各文章を構成される文単位で照合し,表層的な表現の変化に対応するため単語の頻度と概念辞書を用いる.本手法による類似度により,同一テーマで記述された文章と真似して書かれた文章とを明確に区別することができることを示す.In this research, we propose a method of calculating the similarity between documents for identifying the imitated document. Many of imitated documents consist of the sentences similar to the sentence contained in an original documents, and their surface-expression changes by transposing to a synonym etc. Then, our method compares two documents in the sentence unit that constitutes each document by using term frequency and concept dictionary. We show that we can distinguish clearly the document described by the same theme, and the imitated document by using our method.

言及状況

はてなブックマーク (1 users, 1 posts)

[similarity][text]

収集済み URL リスト