著者
山本 英子 内山 将夫 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.104, pp.101-106, 2002-11-12

本研究では,文字認識の分野で用いられている補完類似度をテキストコーパスから事物間の関係を推定する問題に適用する際に,事物が持つ各文書における頻度を考慮した場合を考える.補完類似度は,ベクトルで表された文字の画像パターンの類似度を測ることによって劣化印刷文字を認識するために経験的に開発された尺度である.この扱うベクトルをコーパス中の事物の出現パターンに置き換えると,補完類似度は事物間関係の推定に適用できる.そこで,これまでに二値ベクトルを対象として事物間関係の推定を行った.しかし,二値ベクトルでは,Document Frequency しか考慮しておらず,Term Frequency(文書内頻度)を考慮していない.そこで,Term Frequencyを考慮した多値ベクトルを対象とした補完類似度を用いて事物間関係の推定を行った.その結果,Term Frequencyを考慮した補完類似度のほうが推定能力が高かったことを報告する.In this paper, we applied CSM (Complementary Similarity Measure) considering term frequency to estimate relationship between entities. Here, term frequency is times that certain entity appears in a document. CSM was developed experientially for robust character recognition. This measures inclusion degree of vectors expressing character image pattern. We have even estimated relationship between entities by replacing the image pattern to occurrence pattern of entity in corpus. However, we have considered only document frequency and have not considered term frequency. From experimental results, we reported that CSM considering term frequency obtained higher performance than original CSM.

言及状況

はてなブックマーク (1 users, 1 posts)

Twitter (1 users, 1 posts, 0 favorites)

@awwwwa 昨日読んだ論文だけど、参考になるのかもしれない。http://ci.nii.ac.jp/naid/110002911550

収集済み URL リスト