- 著者
-
城光 英彰
松田 源立
山口 和紀
- 出版者
- 一般社団法人 言語処理学会
- 雑誌
- 自然言語処理 (ISSN:13407619)
- 巻号頁・発行日
- vol.24, no.2, pp.187-204, 2017-03-15 (Released:2017-06-15)
- 参考文献数
- 21
- 被引用文献数
-
2
本論文では,分布仮説に基づく同義語獲得を行う際に,周辺単語の様々な属性情報を活用するために,文脈限定 Skip-gram モデルを提案する.既存の Skip-gram モデルでは,学習対象となる単語の周辺単語(文脈)を利用して,単語ベクトルを学習する.一方,提案する文脈限定 Skip-gram モデルでは,周辺単語を,特定の品詞を持つものや特定の位置に存在するものに限定し,各限定条件に対して単語ベクトルを学習する.したがって,各単語は,様々な限定条件を反映した複数の単語ベクトルを所持する.提案手法では,これら複数種類の単語ベクトル間のコサイン類似度をそれぞれ計算し,それらを,線形サポートベクトルマシンと同義対データを用いた教師あり学習により合成することで,同義語判別器を構成する.提案手法は単純なモデルの線形和として構成されるため,解釈可能性が高い.そのため,周辺単語の様々な単語属性が同義語獲得に与える影響の分析が可能である.また,限定条件の変更も容易であり,拡張可能性も高い.実際のコーパスを用いた実験の結果,多数の文脈限定 Skip-gram モデルの組合せを利用することで,単純な Skip-gram モデルに比べて同義語獲得の精度を上げられることがわかった.また,様々な単語属性に関する重みを調査した結果,日本語の言語特性を適切に抽出できていることもわかった.