著者
藤原 大輔 高瀬 暁央 梅村 恭司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.145-149, 2007-07-25
参考文献数
6

文書の雛形をテンプレートと呼ぶが、あるテンプレート内で使用される単語をテンプレートの形を知ることなく抽出するという問題を扱う。単語の分布として良く知られているものに、Katz K mixture モデルがある。この Katz K mixture モデルは、単語が文書中で繰り返し出現する条件付確率は減衰係数によって決められると仮定している。本研究では、この Katz K mixture モデルに従わない固有名詞が持つ特徴とテンプレートの関係について分析し、その結果、モデルに合致しないものがテンプレート内で使用される単語の候補となり得ることが分かった。A template is a fixed format of certain documents. We deal here with the problem of extraction words used in templates without knowing form of the templates. The Katz K mixture model is well known as a distribution model of keywords. In this model, basic assumption is that the conditional probabilities of repeats for a given word are determined by a decay factor. In this study, we analyze relations of a template and proper nouns which do not obey the Katz K mixture model. As a result, we have found that the Katz model is useful to detect nouns that consitute templates.
著者
高瀬 暁央 梅村 恭司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.75-80, 2006-05-19
参考文献数
5

キーワードの分布として良く知られているものに、Katz K mixmreモデルがある。このKatz K mixtureモデルは、キーワードが文書中で繰り返し出現する条件付き確率は減少係数によって決められる、と仮定している。しかし、このKatzKmixtureモデルに合致しないキーワードが存在する。その一つが日本のプロ野球で使われているチーム名である。野球チーム名には地名や企業名などが含まれているが、野球チーム名として使われていない地名や企業名を調べた結果、野球チーム名だけが特異な特徴を持つことがわかった。本研究では、新聞記事中に出現する野球チーム名がKatz K mixtureモデルと合致せず、また特異な特徴を持っているという発見を報告する.キーワード Katzモデル 統計的言語処理 単語頻度 固有名詞 The Katz K Mixture model is well known model for keywords and proper nouns.This model assumes that there are constant decay factors for the conditional probability of repeats.We have found that there are some keywords that do not obey this assumption.They are the names of professional baseball teams,We have checked that other names,such as companies or places which obey Katzmodel,and we have found that the names of baseball teams alone have this special feature.This paper reports the detail eddistribution of these baseball names,comparing with other names,and showing the difference among them.Keyword The Katz K Mixture model,statistical natural language processing,term frequency,proper noun