- 著者
-
木村 優介
駒水 孝裕
波多野 賢治
- 雑誌
- 研究報告情報基礎とアクセス技術(IFAT) (ISSN:21888884)
- 巻号頁・発行日
- vol.2022-IFAT-148, no.24, pp.1-6, 2022-09-02
深層学習を用いた文書分類は従来の手法と比べて高精度を達成してきた.文書分類は固有表現抽出とのマルチタスク学習によりその精度を向上させることが可能であると報告されている.単語に基づいた特徴量を基本とする手法において,意味のまとまりとしてのフレーズは文書分類の精度に寄与することが知られている.一方で,深層学習においてサブワードは一般的に使われているが,単語とは異なり,意味のまとまりを表すとは限らない.そのため,サブワードで構成されるフレーズを文書分類に応用する研究はされてこなかった.そこで,本研究では文書分類の精度向上を目的に,サブワードフレーズ抽出と文書分類のマルチタスク学習を行う文書分類フレームワークを提案する.従来の単語に基づくフレーズ抽出手法が出現頻度を用いてきた点に倣い,本稿では高頻度なサブワードのフレーズをサブワードフレーズとして定義し抽出する.