著者
三浦 康秀 増市 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.158, pp.139-144, 2007-07-17
被引用文献数
1

本稿では,専門分野コーパス内に出現頻度の低い専門用語の候補文字列があるときに,その文字列を構成する部分文字列および専門分野コーパス内での周辺文字列のパープレキシティ用いて,専門用語としてのスコア付けを行う手法を提案する.文字列が与えられたときに,文字列を構成するn-gramの部分文字列を抽出しレそれらの専門分野コーパスでのパープレキシティを計算する.また同時に,専門分野コーパス内で文字列の周囲に現れるn-gramの周辺文字列のパープレキシティを計算し,これらの比を文字列のスコアとして設定する.本手法の評価実験として,インターネット上で公開されている病名辞書および解剖学用語辞書の見出し語を構成する文字列で,約6,7000件の医療テキスト内での出現回数が5回以下の文字列についてスコア付けを行い,上位200文字列の用語としての成立の可否を医師が確認した.また,比較のため名詞の出現頻度および連接頻度を用いるTerm Extractでも同様の実験を行った.結果として平均で,1-gramでは正解率70.4%,2-gramでは正解率83.5%が得られ,Term Extractによる正解率,70.6%と比較して良好な結果が得られた.

言及状況

はてなブックマーク (2 users, 2 posts)

[NLP] 富士ゼロックス?

収集済み URL リスト