- 著者
藤原 大輔
高瀬 暁央
梅村 恭司
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2007, no.76, pp.145-149, 2007-07-25
- 参考文献数
- 6
文書の雛形をテンプレートと呼ぶが、あるテンプレート内で使用される単語をテンプレートの形を知ることなく抽出するという問題を扱う。単語の分布として良く知られているものに、Katz K mixture モデルがある。この Katz K mixture モデルは、単語が文書中で繰り返し出現する条件付確率は減衰係数によって決められると仮定している。本研究では、この Katz K mixture モデルに従わない固有名詞が持つ特徴とテンプレートの関係について分析し、その結果、モデルに合致しないものがテンプレート内で使用される単語の候補となり得ることが分かった。A template is a fixed format of certain documents. We deal here with the problem of extraction words used in templates without knowing form of the templates. The Katz K mixture model is well known as a distribution model of keywords. In this model, basic assumption is that the conditional probabilities of repeats for a given word are determined by a decay factor. In this study, we analyze relations of a template and proper nouns which do not obey the Katz K mixture model. As a result, we have found that the Katz model is useful to detect nouns that consitute templates.