著者
原 正巳 中島 浩之 木谷強
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.2, pp.299-309, 1997-02-15
被引用文献数
10

従来のキーワード抽出における単語の重要度を決定する手法は 頻度情報や位置情報など個々の単語に閉じた情報を利用していたため 高い抽出精度が得られなかった.本稿では特許明細書を対象に テキストの表層情報を利用して実用的な処理速度を維持すると同時に 特定範囲内での単語の出現の有無を単語の重要度に反映させることで キーワードを高精度で抽出する手法について述べる.まず 特許明細書に特有なフォーマット情報を利用してキーワードの抽出範囲を限定し 不要語の混入を回避した.次に 各抽出範囲ごとに出現する語のみに付与する重要度(範囲内重要度)を新規に導入し 抽出精度の向上を図った.また テキストの内容を把握できるキーワードを獲得するために 文字列の包含関係に着目して 語の意味を具体的に表す語長の長い語を優先して抽出した.プロトタイプを作成し評価した結果 本手法が抽出キーワードの適合率と再現率の向上に有効であることを確認した.Existing keyword extraction methods use only word-specific information such as word frequency and word location in a text in order to decide the importance of the keyword. Since they do not consider relationships among individual keywords, the extraction quality is not satisfactory to users. Our method proposed in this paper using Japanese patents also processes only surface information of the text to extract keywords. The simple mechanism performs keyword extraction fast enough to he used as a practical system. In spite of the simplicity of our method, a high quality of keywords can he obtained by choosing only a few crucial fields from entire patents and by considering word importance in a specific field in the text, based on a supposition that keywords should relate to each other in its context. To help users quickly understand the text with keywords, compound words including a few primitive words are chosen as keywords, since longer words usually have more concrete meaning than a primitive word. Moreover, the text is segmented by a simple algorithm for fast keyword extraction in our prototype system. According to the system evaluation, the proposed method has proved to be effective in improving both recall and precision of the extraction.
著者
原 正巳 中島 浩之 木谷強
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.27, pp.1-6, 1995-03-09
被引用文献数
14

本方式は、記述項目と内容が定められている定型フォーマットのテキストを対象に、単語の共起情報や語の部分一致などの情報を利用して、内容把握のためのキーワードを抽出する手法である。提案する方式では、まず、キーワード抽出の対象とする項目をテキストから抜粋し、字種の接続関係を利用して、複合語の分割を極力避けなからわかち書きを行なう。次に、わかち書き結果から不要語を削除して得たキーワード候補に対して、出現頻度および他の語との共起情報、語の部分一致などの情報を利用して重要度の順位づけを行なう。本検討では、記述項目が統一されている特許明細書を処理対象として、プロトタイプを試作し評価を実施した。評価の結果、本手法により特に出現頻度の低い語に高い重要度を付与できることが明らかになった。また、十分高速なキーワード抽出が期待できることがわかった。This paper describes a method for extracting keywords from Japanese text in which fields of content and the text structure are predefined. The proposed method uses information about word co-occurrences and partial word matching to extract keywords which are used to help users quickly understand the text. The method first identifies fields to be processed in the text. Second, it divides the sentences into words referring to a table which defines whether or not a word boundary must be inserted between adjacent characters. The word separation is based on the transition of character kinds, which works to keep compound words unseparated often comprising of a few Kanji characters. Third, possible keywords are selected by removing ones inappropriate as keywords. Finally, they are ranked in the likely order based on the information about word frequency, word co-occurrences, and partial word matching obtained from the text. A prototype system is developed and evaluated to process patents whose fields of content and the structure are predefined. According to the evaluation results, this method is proved to be effective particularly in giving a high priority to important words appearing infrequently in the text. The results also prove that the system is expected to extract keywords fast enough to be used as a practical system.
著者
佐々木 裕 磯崎 秀樹 平 博順 廣田 啓一 賀沢 秀人 平尾 努 中島 浩之 加藤 恒昭
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.100, no.401, pp.17-24, 2000-10-20
被引用文献数
16

本稿では, いくつかの質問応答システムを独立に作成し, 50問の質問文に対する性能評価を行なった結果を報告する.質問応答システムは1999年のTREC-8のQAタスクの開催以降注目を集めており, 次のような点で従来の情報検索や情報抽出と異なっている.従来の情報検索では, 質問に対する答えを文書の単位で列挙していたが, 質問応答システムは質問の答えを記述した部分を返す.また, 従来の情報抽出は対象分野と抽出項目があらかじめ限定されていたが, 質問応答では, 抽出する項目が質問文により自由に決まる点で異なっている.本稿は, 今後の質問応答システム研究の参考とするため, 日本語QAシステムの性能のベースラインを探るとともに, 日本語QAシステムの比較・評価法を紹介するものである.