- 著者
-
松浦 司
金田 康正
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2000, no.53, pp.1-8, 2000-06-01
- 被引用文献数
-
9
本稿では、文章中のn-gram分布状況を著者の特徴量として、文章の著者を推定する手法を提案する。文章中におけるn-gram出現確率分布関数間の非類似度に基づいて著者推定を行うが、非類似度は提案関数dissimの他、Tankardの手法、ダイヴァージェンス、およびクロスエントロピーを用いてそれぞれ計算し、4関数の著者判別精度を比較した。1-gramから10-gram分布を特徴量とし、日本近代作家8人の92作品を対象とする著者推定実験結果について報告する。本手法は文章に関する付加的な情報を全く必要とせず形態素解析などを要求しない。また特定の言語および文章の性質を利用しないため、多くの言語・テキストにそのまま適用可能であることが期待できる。We propose a method for authorship detection based comparisons between n-gram distributions in sentences. The authors are detected via dissimilarity between probability distribution functions of n-grams in sentences. We have compared four functions to measure the dissimilarity, i.e. dissim(proposed function), Tankard's method, divergence and cross entropy. We report the experiments where the 92 works in total by 8 Japanese modern authors are analyzed via from 1-gram to 10-gram distribution. Our method requires no additional information on texts, i.e. no preliminary analyses. All the machine-readable texts can be attributed by the same method.