- 著者
-
原 正巳
中島 浩之
木谷強
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.38, no.2, pp.299-309, 1997-02-15
- 被引用文献数
-
10
従来のキーワード抽出における単語の重要度を決定する手法は 頻度情報や位置情報など個々の単語に閉じた情報を利用していたため 高い抽出精度が得られなかった.本稿では特許明細書を対象に テキストの表層情報を利用して実用的な処理速度を維持すると同時に 特定範囲内での単語の出現の有無を単語の重要度に反映させることで キーワードを高精度で抽出する手法について述べる.まず 特許明細書に特有なフォーマット情報を利用してキーワードの抽出範囲を限定し 不要語の混入を回避した.次に 各抽出範囲ごとに出現する語のみに付与する重要度(範囲内重要度)を新規に導入し 抽出精度の向上を図った.また テキストの内容を把握できるキーワードを獲得するために 文字列の包含関係に着目して 語の意味を具体的に表す語長の長い語を優先して抽出した.プロトタイプを作成し評価した結果 本手法が抽出キーワードの適合率と再現率の向上に有効であることを確認した.Existing keyword extraction methods use only word-specific information such as word frequency and word location in a text in order to decide the importance of the keyword. Since they do not consider relationships among individual keywords, the extraction quality is not satisfactory to users. Our method proposed in this paper using Japanese patents also processes only surface information of the text to extract keywords. The simple mechanism performs keyword extraction fast enough to he used as a practical system. In spite of the simplicity of our method, a high quality of keywords can he obtained by choosing only a few crucial fields from entire patents and by considering word importance in a specific field in the text, based on a supposition that keywords should relate to each other in its context. To help users quickly understand the text with keywords, compound words including a few primitive words are chosen as keywords, since longer words usually have more concrete meaning than a primitive word. Moreover, the text is segmented by a simple algorithm for fast keyword extraction in our prototype system. According to the system evaluation, the proposed method has proved to be effective in improving both recall and precision of the extraction.