著者
東 和幸 高橋 仁 中川 博之 土屋 達弘
出版者
日本ソフトウェア科学会
雑誌
コンピュータ ソフトウェア (ISSN:02896540)
巻号頁・発行日
vol.36, no.4, pp.4_25-4_31, 2019-10-25 (Released:2019-12-25)

近年では,開発環境の変化に伴って開発者が大量の自然言語文書を扱う機会が増えており,文書をトピック分類するためのトピックモデルであるLDAが注目されている.文書のトピック分類を行う際,分類の精度をあげるために前処理として,分類の妨げとなる単語をストップワードとして除去することが重要であるが,通常のストップワードリストでは対象文書にのみ頻出する単語に対応できないという問題があった.また,1トピックに集約されるべき文書が複数トピックに分散してしまう問題があった.本稿では,これらの問題を解消するため,LDA適用の前後に対象文書からのストップワード抽出と類似トピック統合の2種類の処理を追加する.前処理では,Document Frequencyと単語の類似度を用いて,対象文書からストップワードリストを作成する.また,後処理では分類されたトピックについて構成する単語の類似度からそれぞれのトピック間距離を算出し類似トピックを統合する.LDAを用いたメーリングリストの分類に本手法を適用し,既存手法と比較することで,トピック分類の精度が向上することを確認した.