著者
新納 浩幸
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.41, no.4, pp.1046-1053, 2000-04-15
被引用文献数
1

本論文では日本語文章中に生じる同音異義語の誤りを検出する手法を提案する.基本的にはYarowskyの提案した決定リストを利用する.さらに表記されている単語の情報({?bf 表記情報}と呼ぶ)をdefaultの証拠として導入することで,誤り検出のF値を向上させる.同音異義語の誤りを検出するには,同音異義語問題を解けばよい.そして同音異義語問題は語義選択問題と等価であるために,語義選択問題に対する種々の統計手法を利用して解くことができる.ただし同音異義語問題は語義選択問題とは明確に異なった面も持っている.それはほとんどの場合正解となる判別結果がすでに表記として現れていることである.同音異義語問題では表記されている単語を選択すれば判別の正解率が非常に高くなる.しかし,表記されている単語をつねに選択すれば誤り検出をまったく行わず,誤り検出システムとしての意味をなさない.同音異義語問題の手法の評価は判別の正解率ではなく,誤り検出の正解率と再現率を考慮したF値で行うべきである.本論文では,F値を向上させるように,表記情報を利用する.具体的には統計手法として決定リストを利用する.そして表記情報をdefaultの証拠として決定リスト内に導入する.この表記情報の予測力の値は,訓練コーパスにおいてF値を最大にする値から得る.In this paper, we propose a method of detectingJapanese homophone errors in Japanese texts.Our method is based on a decision list proposed by Yarowsky.We improve the original decision list by using written words as the default evidence.The improved decision list can raise the F-measure of error detection.In order to detect homophone errors,we only have to solve the homophone problem for the homophone word.The homophone problem is equivalent tothe word sense disambiguation problem.Consequently, we can solve the homophone problemby using various statistical methods proposed for the word sense disambiguation problem.However, the homophone problemhas a distinct difference from the word sense disambiguation problem.In the homophone problem, almost all of the answers are given correctly.Therefore, the choice of the written word results in high precision.However, the method to always choose the written wordis useless for error detection becauseit doesn't detect errors at all.The method for the homophone problemshould be evaluated by the F-measure tocombine the precision and the recall.In this paper, we use the written word in order to raise the F-measure of error detection.To put it concretely,we use the written word as the default evidence ofthe decision list.The identifying strength of the written word is obtained by calculating the strength that gives the maximum F-measurein the training corpus.

言及状況

Twitter (2 users, 2 posts, 2 favorites)

@nownabe 発表乙です。例の論文はこんなかんじ: 新納浩幸, 2000年. 『表記情報をデフォルトの証拠として用いた決定リストによる同音異義語の誤り検出』 http://ci.nii.ac.jp/naid/110002725312

収集済み URL リスト