著者
新納 浩幸 白 静 曹 鋭 馬 雯
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回全国大会(2020)
巻号頁・発行日
pp.1E3GS902, 2020 (Released:2020-06-19)

本論文では BERT の領域依存の問題を指摘し、Fine-Tuning を利用することで領域に特化した事前学習モデルを構築する。具体的には既存 BERT モデルのパラメータを DistilBERT のパラメータの初期値とし、領域毎のコーパスを利用して DistilBERT モデルの学習を行う。これによって領域に特化した DistilBERT モデルの構築が効率的に行える。実験では、領域毎に空所単語の推定問題を作成し、問題の領域に特化して構築したモデルと既存 BERT モデルを比較することで、構築したモデルの有益性を示す。
著者
田中 裕隆 曹 鋭 白 静 馬 ブン 新納 浩幸
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-243, no.8, pp.1-6, 2019-11-27

近年,BERT のような事前学習モデルを利用することで,自然言語処理システムの性能が大きく向上している.BERT は,Transformer の Multi-head Attention を用いることで文脈に応じた単語の埋め込み表現列を得ることのできるモデルである.文書分類のタスクの場合,文書を BERT に入力し,その出力から文書の特徴ベクトルを構築する方法によって処理できる.しかし,BERTに入力できるシーケンスの長さには上限がある.この制限によって,長い文書を扱う場合,標準的な手法では文書分類に必要な情報を十分に得られないと考えられる.そこで,BERT から長い文書内の全ての単語に対応する埋め込み表現を得て,そこから文書の特徴ベクトルを作成する手法を提案する.