- 著者
-
源 翔三郎
竹内 孔一
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
- 巻号頁・発行日
- vol.111, no.227, pp.33-37, 2011-10-03
テキスト中から専門用語を自動的に抽出する用語抽出システムの比較を行う.比較の対象となる手法は統計的学習モデルとルールベースモデルに基づく手法である.比較には感染症の用語を人手で同定したテキストデータが存在することから,これを正解データとして扱う.統計的学習モデルでは正解データを元にCRFによって学習を行うことで用語抽出システムを構築する.またルールベースモデルでは規則ベースのパターン抽出用言語としてSRLを利用した抽出システムを用いる.用語抽出実験の結果から正解データが多く存在する場合は統計的学習モデルによる用語抽出,分野依存がある場合はルールベースモデルの用語抽出を行うとよい結果が得られることを明らかにした.