著者
野本 忠司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69, pp.1-6, 1995-07-20
参考文献数
13

本稿では日本語テキストにおける主題の自動抽出に向けて、新しい手法を提案する。本稿では、主題抽出を一種の文書分類(ext Categorizatio)と捉え、従来の文書分類の技術を応用した確率的な主題抽出方式を提案する。また、本稿では、格助詞を利用し主題抽出における文法情報の効果について検討する。CD?ROM版日本経済新聞(992年1?6月)の42,401件の記事をデータとして利用し、格情報あり、格情報なしの条件下で主題抽出の実験を行った。また、評価の基準としてベースラインを導入した。実験の結果では、格情報を利用したモデルが他の場合に比べ優位であることが確認された。しかし、本方式は記事が長くなるにつれ精度が急速に低下するなどの問題が見られ、改善の余地があることも分った。The paper describes a new method for discovering topical words in discourse. It shows that text categorization techniques can be turned into an effective tool for dealing with the topic discovery problem. Experiments were done on a large Japanese newspaper corpus. It was found that training the model on annotated corpora does lead to an improvement on the topic recognition task.

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト