著者
柳燁 佳 金 明哲
出版者
日本分類学会
雑誌
データ分析の理論と応用 (ISSN:21864195)
巻号頁・発行日
vol.11, no.1, pp.1-14, 2022-08-01 (Released:2022-09-29)
参考文献数
37

近年,代筆疑惑を検証するための著者識別の方法論が発展しつつあり,その応用も飛躍的に普及している.これまでの著者識別の関連研究のほとんどはジャンルの影響を考慮して,用いる文章のジャンルを統一するのが一般的である.しかし,諸事情により同じジャンルの文章を収集することが困難な場合もある.日本語においては,異なるジャンルの文章が混在する場合の著者識別に関する基礎研究はまだない.本研究では,5人の現役日本人作家の2ジャンル(小説,随筆)の計200篇の文章からなるコーパスを作成して,著者識別に有効と報告されている14種類の特徴量と7種類の分類器を用いて,異ジャンル文章が混在する場合における著者識別の精度を比較した.その結果,ジャンルによって使い方が大きく変わる特徴量があるものの,適切な特徴量と分類器を選択すれば,異ジャンル文章が混在しても高い精度で著者識別ができることが分かった.