- 著者
-
野崎 雄太
櫻井 義尚
- 雑誌
- 情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
- 巻号頁・発行日
- vol.13, no.2, pp.69-83, 2020-08-28
本論文では,教師データセットの作成において,事例をランダムに選び,アノテーションすると不均衡データになってしまう課題に対して,機械的なプレフィルタリングを用いたサンプリングにより,不均衡化を緩和するアノテーション手法PSSA(Prefilter based Stepwise Sampling for Annotation)を提案する.また,辞書フィルタを用いたPSSAによるTwitterからの意見抽出モデルを構築し,提案手法の有効性を示した.まず,辞書フィルタを用いたPSSAによる,不均衡化の緩和効果の検証のため,ツイートのアノテーション実験を行い,次にアノテーション段階での不均衡データ対策の有効性を検証するため,意見抽出モデルを構築し,アノテーション手法と前処理,機械学習構築手法の組合せの違いによるモデル精度の違いを検証した.最後に,アノテーションを行うサンブル選択に辞書フィルタを用いることによる影響を分析するため,各辞書フィルタを適用した場合とフィルタリングしなかった場合のモデル精度を比較した.以上の比較実験を通して,提案するアノテーション手法の優位性を多角的に検証した.