- 著者
-
松浦 司
金田 康正
- 雑誌
- 情報処理学会研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.2000, no.53(2000-NL-137), pp.1-8, 2000-06-01
本稿では、文章中のn-gram分布状況を著者の特徴量として、文章の著者を推定する手法を提案する。文章中におけるn-gram出現確率分布関数間の非類似度に基づいて著者推定を行うが、非類似度は提案関数dissimの他、Tankardの手法、ダイヴァージェンス、およびクロスエントロピーを用いてそれぞれ計算し、4関数の著者判別精度を比較した。1-gramから10-gram分布を特徴量とし、日本近代作家8人の92作品を対象とする著者推定実験結果について報告する。本手法は文章に関する付加的な情報を全く必要とせず形態素解析などを要求しない。また特定の言語および文章の性質を利用しないため、多くの言語・テキストにそのまま適用可能であることが期待できる。