- 著者
-
中渡瀬 秀一
木本 晴夫
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告情報学基礎(FI)
- 巻号頁・発行日
- vol.1995, no.87, pp.41-48, 1995-09-14
- 被引用文献数
-
16
本論文では字面処理によって,テキストから重要語(キーワード)を自動抽出する方法について述べる.日本語の場合まず文章から単語を得るために,形態素解析が必要であるが,形態素解析には未知語や曖昧性の解消などの問題があり,これを解決するために,従来は複雑な規則や人間がメンテナンスしなければならない辞書が必要であった.本手法はNグラムの頻度情報を用いた完全な字面処理になっている.その手順では()まずNグラム頻度情報を使って重要な文字列を抽出し,()次にその中から無意味な文字列を排除する.実験ではこの手法が未知語や複合語の範囲を正しく識別し,抽出精度を向上させることを確認した.This paper describes a new method to extract free keywords automatically from a Japanese text. Morphological analysis is necessary to recognize words from a text for extraction of keywords. There exist, however, problems of unknown words recognition and ambiguity of compound words recognition, so dictionaries and complex heuristics are necessary to resolve them. Our method is based on the n-gram method and consists of 2 steps: (1) Evaluation of major strings using the n-gram statistics, and (2) Exclusion of nonsense strings. It was found that our method extracts keywords that is unknown word more precisely than conventional methods.