- 著者
-
坪井 祐太
松本 裕治
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2002, no.20, pp.17-24, 2002-03-04
- 被引用文献数
-
2
本研究では、機械学習手法(Support Vector Machines)を用いてメーリングリストの著者識別を行った。また、メーリングリストのデータで学習した識別器によって、Webの文書の著作識別を試みることで異なるタイプのドキュメントに対する性能を調べた。この際、従来から使われていた単語N-gramとともに、データマイニング手法(PrefixSpan)によって抽出された単語の連続パターンを素性に用いることでより高い性能が得られた。使用されたパターンは隣り合わない単語列にもマッチするパターンであり、実験結果より著述すタイルを表現するのに適当な特徴の一つであると考えられる。The study of authorship identification in Japanese has for most part been restricted to literary texts using basic statistical methods. In the present study, authors of mailing list messages are identified using a machine learning technique (Support Vector Machines). In addition, the classifier trained on the mailing list data is applied to identify the author of Web documents in order to investigate performance in authorship identification for more heterogeneous documents. Experimental results show better identification performance when we use the features of not only conventional word N-gram information but also of frequent sequential patterns extracted by a data mining technique (PrefixSpan).