著者
木谷強 小川 泰嗣 石川 徹也 木本 晴夫 中渡瀬 秀一 芥子 育雄 豊浦 潤 福島 俊一 松井 くにお 上田 良寛 酒井 哲也 徳永 健伸 鶴岡 弘 安形 輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.2, pp.15-22, 1998-01-19
被引用文献数
33

日本語情報検索システム評価用テストコレクションBMIR-J2は、情報処理学会データベースシステム研究会内のワーキンググループによって作成されている。BMIR-J2は1998年3月から配布される予定であるが、これに先立ち、テスト版としてBMIR-J2が1996年3月からモニタ公開された。J1は50箇所のモニタに配布され、多数の研究成果が発表されている。BMIR-J2では、J1に対するモニタユーザからのアンケートの回答と、作成にあたったワーキングループメンバの経験をもとに、テストコレクションの検索対象テキスト数を大幅に増やし、検索要求と適合性判定基準も見直した。本論文では、BMIR-J2の内容とその作成手順、および今後の課題について述べる。BMIR-J2, a test collection for evaluation of Japanese information retrieval systems to be released in March 1998, has been developed by a working group under the Special Interest Group on Database Systems in Information Processing Society of Japan. Since March 1996, a preliminary version called BMIR-J1 has been distributed to fifty sites and used in many research projects. Based on comments from the BMIR-J1 users and our experience, we have enlarged the collection size and revised search queries and relevance assessments in BMIR-J2. In this paper, we describe BMIR-J2 and its development process, and discuss issues to be considered for improving BMIR-J2 further.
著者
原 正巳 中島 浩之 木谷強
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.2, pp.299-309, 1997-02-15
被引用文献数
10

従来のキーワード抽出における単語の重要度を決定する手法は 頻度情報や位置情報など個々の単語に閉じた情報を利用していたため 高い抽出精度が得られなかった.本稿では特許明細書を対象に テキストの表層情報を利用して実用的な処理速度を維持すると同時に 特定範囲内での単語の出現の有無を単語の重要度に反映させることで キーワードを高精度で抽出する手法について述べる.まず 特許明細書に特有なフォーマット情報を利用してキーワードの抽出範囲を限定し 不要語の混入を回避した.次に 各抽出範囲ごとに出現する語のみに付与する重要度(範囲内重要度)を新規に導入し 抽出精度の向上を図った.また テキストの内容を把握できるキーワードを獲得するために 文字列の包含関係に着目して 語の意味を具体的に表す語長の長い語を優先して抽出した.プロトタイプを作成し評価した結果 本手法が抽出キーワードの適合率と再現率の向上に有効であることを確認した.Existing keyword extraction methods use only word-specific information such as word frequency and word location in a text in order to decide the importance of the keyword. Since they do not consider relationships among individual keywords, the extraction quality is not satisfactory to users. Our method proposed in this paper using Japanese patents also processes only surface information of the text to extract keywords. The simple mechanism performs keyword extraction fast enough to he used as a practical system. In spite of the simplicity of our method, a high quality of keywords can he obtained by choosing only a few crucial fields from entire patents and by considering word importance in a specific field in the text, based on a supposition that keywords should relate to each other in its context. To help users quickly understand the text with keywords, compound words including a few primitive words are chosen as keywords, since longer words usually have more concrete meaning than a primitive word. Moreover, the text is segmented by a simple algorithm for fast keyword extraction in our prototype system. According to the system evaluation, the proposed method has proved to be effective in improving both recall and precision of the extraction.
著者
高木 徹 木谷強
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.40, no.8, pp.74-84, 1999-11-15
参考文献数
26

大規模な文書データベースを対象とするフルテキスト検索では検索ヒット件数が多くなる傾向があるため ユーザの検索作業を支援する観点から 検索結果に対して重要度を付与する必要がある.本論文では 重要度算出方法として文書内における検索語の出現共起情報を用いる手法を提案する.単語の共起情報として、近接出現距離 共起検索語間の関連性 および共起検索語の重要度を用いて共起重要度を算出し 単語頻度情報から得られる文書の重要度と組み合わせて重要度を算出する.日本語の情報検索評価用テストコレクションを使用し 単語頻度情報のみによる重要度付与手法と 共起情報を考慮した提案手法を比較した.この結果 提案手法の平均適合率が約0.098向上(従来手法と比較した場合の向上率37%)することを確認した.Full text search from huge databases tend to give a great number of retrieved documents. To help user's retrieval work, it is necessary to rank them according to their relevance. This paper describes a relevance ranking method using information obtained from query word cooccurrences appearing in the retrieved documents. Distance between query words, their relative relationships in the database, and importance of query words are considered to decide the document relevance. Combined with traditional word frequency ranking, an overall relevance of retrieved documents is calculated. The traditional method alone and the combined method are compared using a test collection consisting of Japanese newspaper articles. Experimental results show that the proposed method improves retrieval recall about 0.098, or 37%compared to the traditional ranking method.
著者
高木 徹 木谷強 関根 道隆 出口 信吾
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1997, no.86, pp.89-94, 1997-09-11
参考文献数
8
被引用文献数
3

ユーザの検索作業を支援する観点から、全文検索の検索結果に対して重要度 (スコア) を付与する研究が実施されている。一方、シソーラスは重要な概念を表わす語で構成されており、一般的に文書の主題を表わす語が多く含まれている。そこで本論文では、検索語がシソーラスに掲載されている語である場合、その語が出現する文書の重要度を変更する方法を提案する。日本語新聞記事のテストコレクションBMIR?J1と日経シソーラスを使用し、シソーラス掲載情報を利用する場合と利用しない場合の検索精度を比較した。検索文字列とシソーラス掲載語の文字列の一致度合、および検索文字列が含まれるシソーラス掲載語のカテゴリ頻度をパラメータとして文書の重要度を変化させた結果、再現率が5%向上することを確認した。To facilitate users' retrieval work, it is necessary to rank documents according to their relevance. A thesaurus is composed of words which can be main subjects of the documents. This paper describes a relevance ranking method that utilizes importance of query words appearing in the thesaurus. The traditional frequency-based method alone and combined method are compared using the Nikkei thesaurus and a test collection of Japanese newspaper articles called BMIR-J1. Experimental results show that the proposed method, using the thesaurus-term frequency and the degree of string matching between the query and thesaurus word, improves retrieval recall by 5%.
著者
江里口 善生 木谷強
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.1, pp.44-54, 1997-01-15
被引用文献数
9

テキストから興味ある情報を抜き出す情報抽出の手法として 文字列の並びを認識するパターンマッチング処理が注目されている.パターンマッチング処理は構文解析に比べ一般的に処理時間が短く 全文の解析を必ずしも必要としない情報抽出に適している.これまでにARPAによる情報抽出コンテストMUCなどで パターンマッチング処理を利用した情報抽出システムが開発されてきた。しかし パターンマッチングの効率は 大量文書を処理する場合は重要であるにもかかわらず ほとんど検討されていなかった.本論文では スキップ機能を有する富田一般化LRパーザをパターンマッチングエンジンとして使用し 情報抽出のための効率的なパターンマッチング手法を検討する.まず パーザヘの入力単位を形態素と文節で比較し 企業の業務提携に関する新聞記事を使用した実験から 処理精度と速度ともに文節単位の入力が優れていることを示す.次に マッチングする対象とならない語をパーザヘ入力する前に取り除く不要語フィルタリング処理を提案する.実験により 文節単位の入力で不要語フィルタリングを使用する場合 形態素単位の入力で不要語フィルタリングを使用しない場合に比べ 処理速度が約23倍も向上することを示す.提案する手法により 冨田一般化LRパーザを用いた情報抽出のための効率的なパターンマッチング処理が実現できることを明らかにする.Pattern matching, which recognizes character sequences in a text, has been used for extracting information of user's interest. Pattern matching is suitable for information extraction, since it is generally fast by its nature and the extraction does not necessarily require full text analysis. Several information extraction systems such as ARPA-sponsored MUC systems were based on pattern matching. Efficiency in pattern matching for information extraction, however, has not been well investigated in spite of the importance in processing a large amount of text. This paper studies efficient pattern matching using Tomita's generalized LR parser known as one of the fastest practical parsers. Two different input formats to the parser, a morpheme (primitive word) format and bunsetsu format comprising a content word and following function words, are compared. Prom our experiments using newspaper articles of corporate joint ventures, the bunsetsu format is proved to be superior to the morpheme format in both processing speed and extraction accuracy. Furthermore, filtering out unnecessary words prior to pattern matching improves the parser's speed about twenty-three times faster compared to parsing the morpheme input without word filtering. Our proposed method applied to Tomita's generalized LR parser for information extraction raises pattern matching efficiency greatly.
著者
原 正巳 中島 浩之 木谷強
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.27, pp.1-6, 1995-03-09
被引用文献数
14

本方式は、記述項目と内容が定められている定型フォーマットのテキストを対象に、単語の共起情報や語の部分一致などの情報を利用して、内容把握のためのキーワードを抽出する手法である。提案する方式では、まず、キーワード抽出の対象とする項目をテキストから抜粋し、字種の接続関係を利用して、複合語の分割を極力避けなからわかち書きを行なう。次に、わかち書き結果から不要語を削除して得たキーワード候補に対して、出現頻度および他の語との共起情報、語の部分一致などの情報を利用して重要度の順位づけを行なう。本検討では、記述項目が統一されている特許明細書を処理対象として、プロトタイプを試作し評価を実施した。評価の結果、本手法により特に出現頻度の低い語に高い重要度を付与できることが明らかになった。また、十分高速なキーワード抽出が期待できることがわかった。This paper describes a method for extracting keywords from Japanese text in which fields of content and the text structure are predefined. The proposed method uses information about word co-occurrences and partial word matching to extract keywords which are used to help users quickly understand the text. The method first identifies fields to be processed in the text. Second, it divides the sentences into words referring to a table which defines whether or not a word boundary must be inserted between adjacent characters. The word separation is based on the transition of character kinds, which works to keep compound words unseparated often comprising of a few Kanji characters. Third, possible keywords are selected by removing ones inappropriate as keywords. Finally, they are ranked in the likely order based on the information about word frequency, word co-occurrences, and partial word matching obtained from the text. A prototype system is developed and evaluated to process patents whose fields of content and the structure are predefined. According to the evaluation results, this method is proved to be effective particularly in giving a high priority to important words appearing infrequently in the text. The results also prove that the system is expected to extract keywords fast enough to be used as a practical system.