- 著者
-
高瀬 暁央
梅村 恭司
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2006, no.53, pp.75-80, 2006-05-19
- 参考文献数
- 5
キーワードの分布として良く知られているものに、Katz K mixmreモデルがある。このKatz K mixtureモデルは、キーワードが文書中で繰り返し出現する条件付き確率は減少係数によって決められる、と仮定している。しかし、このKatzKmixtureモデルに合致しないキーワードが存在する。その一つが日本のプロ野球で使われているチーム名である。野球チーム名には地名や企業名などが含まれているが、野球チーム名として使われていない地名や企業名を調べた結果、野球チーム名だけが特異な特徴を持つことがわかった。本研究では、新聞記事中に出現する野球チーム名がKatz K mixtureモデルと合致せず、また特異な特徴を持っているという発見を報告する.キーワード Katzモデル 統計的言語処理 単語頻度 固有名詞 The Katz K Mixture model is well known model for keywords and proper nouns.This model assumes that there are constant decay factors for the conditional probability of repeats.We have found that there are some keywords that do not obey this assumption.They are the names of professional baseball teams,We have checked that other names,such as companies or places which obey Katzmodel,and we have found that the names of baseball teams alone have this special feature.This paper reports the detail eddistribution of these baseball names,comparing with other names,and showing the difference among them.Keyword The Katz K Mixture model,statistical natural language processing,term frequency,proper noun