- 著者
-
久光 徹
丹羽 芳樹
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.1997, no.109, pp.113-118, 1997-11-20
- 被引用文献数
-
5
新聞記事には平均10行に1個以上の割合で括弧表現,すなわち二つの文字列A,Bが括弧により対応付けられた表現"A (B)"が現れる.このような括弧表現の一部は,"欧州連合(EU)"や"朝鮮民主主義人民共和国(北朝鮮)"等の言い替えの括弧表現,"日立製作所(会社人事)"等の固有名詞を含む括弧表現であり,これらが特定できれば多数の重要語や固有名詞を獲得できる.本報告では,共起の強さを計る統計指標とエントロピーを字種情報などに基づく単純なルールを組み合わせ,上記の有用な括弧表現を簡便かつ高精度に獲得できることを示す.共起の強さを計る指標として,自己相互情報量,χ^2検定,Yate補正したχ^2検定,頻度,尤度比,Dice係数,改良Dice係数の7種類を比較し,それぞれの効果を調べた.One year worth newspaper articles contain about 300,000 parenthetical expressions. Some of them contain important unregistered words (terms) such as abbreviations, organization names, and company names. The detection of such expressions is therefore an effective way of lexical knowledge acquisition. The proposed method identifies useful parenthetical expressions by combining entropy criteria, a statistical measure to evaluate collocational strength, and a small number of simple rules. In order to select a proper statistical measure, we conducted a comparative evaluation of seven statistical measures: mutual information, χ^2-test, χ^2-test with Yate's correction, frequency, log-likelihood, Dice coefficient, and modified Dice coefficient.