- 著者
-
木本 晴夫
- 出版者
- The Institute of Electronics, Information and Communication Engineers
- 雑誌
- 電子情報通信学会論文誌 D (ISSN:09151915)
- 巻号頁・発行日
- vol.J74-D1, no.8, pp.556-566, 1991-08-25
言語処理・知識処理・統計処理を用いる新しいキーワード自動抽出法として語特徴評価法を提案する.また,語特徴評価法に基づくキーワード自動抽出システム(INDEXERシステム)を作成し,評価を行ったのでその結果を報告する.本論文でのキーワード抽出の対象は日本語で書かれた新聞記事である.従来のキーワード自動抽出はフリーターム方式か統制キーワード方式を用いて行われていた.これらの方法では必要キーワードと共に,その3~5倍もの不必要キーワードが抽出されていた.語特徴評価法は,これらの不必要キーワードを大幅に削除して精度の高いキーワード自動抽出を実現することを目的としている.本方法はシステムが抽出したキーワード候補語について,個々の語の,文章中やシソーラスにおける特徴を抽出して,その特徴によって,キーワード候補語が文献の内容をよく代表していて,文献を検索するためのキーワード(以下では必要キーワードと呼ぶ,またシステムが自動抽出したキーワードで必要キーワードでないものを不必要キーワードと呼ぶ)として必要か否かを評価する方法である.ここで,語の特徴として次に掲げるものを採用している.それらは,並立に表現された語,連体修飾語,強調表現された語,シソーラスにおける上位語,シソーラスにおいて上位・下位の関係にある語,語の文章中における出現位置,出現頻度等である.語特徴評価法を用いることにより,抽出される不必要キーワードの数を従来の方法と比較して1/4にできることを実験によって確認した.更に,処理対象とする文書の分野特性を利用することによって,よりいっそうの精度向上が可能なことを述べる.またシステムが自動抽出したキーワードの相対的重要度を語の特徴を利用して評価した結果,上位の10語の中に専門家が付与したキーワードの95%を入れることができた.