著者
清水 大志
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回 (2020) (ISSN:27587347)
巻号頁・発行日
pp.3Rin478, 2020 (Released:2020-06-19)

あるテキストをもとに,その著者を推定するという研究は古くから行われている.日本語で書かれたテキストにおいては,単語の使用頻度や品詞のn-gramの分布,読点前の文字の分布といった特徴量に注目した手法が行われてきた.また判別モデルについてもランダムフォレスト法やニューラルネットワークといった様々な機械学習手法が用いられている.ここで本研究では,2014年に提案されたDoc2Vecと2018年に提案されたBERTに注目し,これらとニューラルネットを用いた教師あり学習を行って著者推定を行なった.学習データ及びテストデータとして使用する作品はインターネット上で公開されている青空文庫から取得した.Doc2Vecにおいては作品を数値ベクトルに変換し,それをニューラルネットの入力としている.Doc2Vecにおいては84.89%,BERTにおいては55.43%の精度が達成できた.