- 著者
-
井上 剛
進藤 裕之
松本 裕治
- 雑誌
- 研究報告自然言語処理(NL) (ISSN:21888779)
- 巻号頁・発行日
- vol.2017-NL-232, no.8, pp.1-9, 2017-07-12
アラビア語などの形態的に豊かな言語の品詞タグ付けは,英語など形態的に乏しい言語の品詞タグ付けに比べ,タグセットが膨大になるため,困難な問題である.これは,言語固有の情報を反映した高粒度な品詞タグが,各形態統語的カテゴリごとに定義されたタグの組み合わせによって構成されるためである.既存のアラビア語品詞タグ付けでは,各形態統語的カテゴリを独立に予測しており,各カテゴリを予測する上で有益な情報をカテゴリ間で共有できていなかった.本研究では,マルチタスク学習の枠組みを用いて,各形態統語的カテゴリを同時に予測する手法を提案する.また,入力語に対して各形態統語的カテゴリが取りうるタグを登録した辞書情報をモデルに組み込むことで,さらなる性能向上が得られることを示す.Penn Arabic Treebank を用いた評価実験の結果,これまでに報告されている最高性能の品詞タガーの正解率を上回ることを確認した.