著者
平井 誠 北橋 忠宏
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1986, no.79(1986-NL-058), pp.1-8, 1986-11-21

本稿では、「XのY」という形態の名詞句と連体修飾を統一的な枠組みで捉らえることを目的として、両者を同一の基準で分類し、「の」と連体修飾の解析を行なう際に必要となる辞書情報について言及する。「XのY」という名詞句は極めて頻繁に使用されうえに、その意味も多様である。従って、言語解析の立場からは「の」の意味の決定が1つの大きな問題であり、その意味の適切な分類が必要である。これを分類する一方法は、「XのY」を関係節(形容詞節)と被修飾名詞から成る連体修飾の短縮形かあるいは単文の短縮形と考え、連体修飾の分類に基づいた分類を行なうことである。本稿では連体修飾を、1)関係節と被修飾名詞の意味的な関係および2)連体修飾句全体が何を指示するかの2点から、格要素型、関数型、isa型、推論型、および間接限定型の5種類に分類する。次いで、この分類基準を利用することにより、「の」の意味が6種類に分類できることを示す。最後に、この分類を用いて「の」と連体修飾を解析する際に必要となる名詞や動詞の意味情報(辞書情報)を各カテゴリー別にまとめる。
著者
小川 泰弘 稲垣 康善 ムフタル・マフスット
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.114(1996-NL-116), pp.7-12, 1996-11-18

日本語の膠着言語の性質と音韻論的性質に注目した清瀬の派生文法では、活用という考え方を用いないで動詞接尾辞を考えることにより、動詞語形の形成を単純かつ体系的に取り扱うことを可能としている。本稿では、派生文法に基づく日本語形態素解析法を提案し、不規則動詞を含む各種の動詞語形の変化を簡単に解析できることを示す。また従来異形態の登録で対処されてきた音便形に対して、後方からの検索と子音の補完により余分な辞書登録をしないで解析する手法を提案し、その有効性を示す。
著者
大熊智子 増市 博 吉岡 健
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.1(2006-NL-171), pp.61-66, 2006-01-13

Lexical Functional Grammar(LFG),Head Phrase Structure Grammar(HPSG) などの句構造文法を用いたパーザでは、入力された自然言語文に対し、f(unctional)-structureやminimal recursion semantics(MRS)などの統語意味構造を出力する。このプロセスを逆に辿ることによって、つまり統語意味構造を入力することによって同じ文法を用いて自然言語文を出力として得ることができる。パーザに用いられた文法をそのままジェネレータに適用することが可能である。LFGに基づく処理系であるXerox Linguistic Enviroment(XLE)やHPSGの代表的な処理系LKBも、ジェネレータ機能を有している。このような生成技術が適用される応用として代表的な研究は、中間木を利用した翻訳システムがあるが、最近注目を集めている「言い換え」に対しても生成技術を適用できる可能性は高い。これ以外にも、QAシステムや対話システムなど、生成技術は様々な言語処理アプリケーションに適用可能な基礎技術である。ところが、実際には解析用の日本語文法をそのまま生成に適用しようとすると、解析の段階では問題にならなかった事柄が顕在化する。本研究では、我々が研究開発を進めてきた解析用文法を用いて生成を行う際の課題を分析し、それを解決するための手段について提案する。さらに文の生成実験を行ってそれらの妥当性について検証した。その結果、例外ルールの付加と語彙の選択という二つの手法を用いて、解析用文法を生成に適応させる手法を提案し、両者が解析成功率の向上に寄与することを確認できた。
著者
但馬 康宏 北出 大蔵 中野 未知子 藤本 浩司 中林 智 小谷 善行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.7-12, 2007-07-24

本研究において、比較的長い対話に対する話題分割を行う手法を提案する。隠れマルコフモデル(HMM)による話題分割は、これまでも盛んに研究されており、音声認識の分野で特に成果をあげている。しかし、一般的に対話を単語の列として取り扱うため、長さが数百語程度以上の対話の場合にその対話の発生確率が著しく低くなり、有効精度不足となる。本手法では、対話における発話を HMM の出力単位として話題分割を行う。対話における1発話ごとにベイズ推定によりあらかじめ話題のラベルを付けた後、そのラベル列を出力する HMM を構成することにより話題の切り替わりを特定する。ここで、HMM はすべての状態間の遷移を許したモデルとした。68 名の被験者で対話実験を行い、62 対話を作成し、本手法の有効性を検証した。この結果、1500 単語程度の長さの対話にたいして良好な分割精度を出せたことを報告する。We propose a dialogue segmentation and topic structure finding method via Hidden Markov Model (HMM). HMM has been applied for this problem in previous studies and its advantages have been shown. Nevertheless, the length of the dialogue must be restricted about a hundred words because of computational errors, i.e. the occurrence probability of a dialogue which has a thousand words tends to be less than 10-1000 and we fail to construct HMM because of lack of computational precision. In this paper, we propose a new approach for this problem by HMM whose state outputs a symbol of an utterance. Every utterance is classified into some symbols of a segment by a Bayesian classifying method, then we construct an HMM for the target dialogue. The HMM in our method can handle a long dialogue whose length is about 1500 words for 1000 kinds of words. We used 62 dialogues by 68 testee and evaluate our method.
著者
山本 悠二 増山 繁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.113, pp.15-22, 2007-11-19
被引用文献数
1 2

本稿では,係り先候補の相対的な距離を反映した統計的日本語係り受け解析手法を提案する.統計的係り受け解析手法は,文節間の係りやすさを訓練データから推定する.その際,従来手法では,文節間の距離はいくつかのカテゴリに分けられ,推定に用いられる素性として明示的に与えられる.しかし,複数の文節間候補が同一の距離カテゴリに属する場合,距離による弁別ができないため,最尤の係り先を決定することが困難である場合が多い.そこで提案モデルでは,文節候補集合中の二つの文節候補を逐次的に取り出し,どちらが係り元に近いかを明示させて係りやすさの推定を行う.京都大学コーパスを用いて実験を行った結果,係り受け正解率 91.60 %,文正解率 56.33 % となり,ベースライン手法と比べて有意に改善していることが確認された.We propose a novel method for statistical Japanese dependency analysis, which reflects relative distances among modifee candidates. Statistical Japanese dependency analizers estimate a dependency likelihood between a pair of bunsetsu chunks from training dataset. In conventional approaches, distances between pairs of bunsetsu chunks are divided into some feature categories, and the categories are embedded into training feature set explicitly. However, modifee candidates that belong to the same distance category, are possibly hard to be selected the most likely one, since they can not be distinguished by their distance categories. The proposed method selects two modifee candidates from all candidates sequentially. Each of the two modifee candidates and its modifier estimate the dependency likelihood after the modifee candidate appends extra information whether it is nearer from its modifier. The experimental results using Kyoto University Corpus achieved a dependency accuracy of 91.60% and a sentence accuracy of 56.33% respectively. We confirmed that the proposed method improved both dependency and sentence accuracy significantly, compared with the base-line method.
著者
金山 淳一 北條 孝 田村 直良
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.104, pp.1-6, 2002-11-12
参考文献数
7
被引用文献数
1

本論文では、一連の出来事において関連する人間の相互関係として意味構造を定義し、特に新聞の事件記事から意味構造(犯罪スキーマ)を抽出する手法を述べる。事件スキーマの要素は、関連人物の容疑者、被害者、警察としての同定、それぞれのプロフィール、犯罪の動機、事件の進行などからなり、新聞記事から抽出される。解析、抽出処理は、スキーマの要素に応じて、パターンマッチング的な手法、構文解析、格フレーム抽出に基づく手法、主題の構造解析に基づく手法、時間セグメント分割に基づく手法などにより、犯罪スキーマとして再構成する。In this paper, we define a semantic structure as mutual relations among persons who relate a crime and we present a method to extract the semantic structure, especially from crime articles of newspaper.We call hte structure as crime scheme The scheme consists of descriptions of persons who relate the crime, identi?cation of the persons with one of suspect, victim or police, the motivation of the suspect of the crime and theevent sequences occurred in the crime. The analysis and the extraction are based on the pattern matching, syntax analysis, case frame extraction, thematic structure extraction and so on, and are reconstructed as a scheme, according to the element of the scheme.
著者
田中康仁
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1977, no.8(1977-NL-010), pp.1-7, 1977-06-24
著者
石井 恵 中渡瀬 秀一 富田 準二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.23, pp.79-84, 2004-03-05
被引用文献数
3

本稿では掲示板のような場につぎつぎ書き込まれるメッセージの列における利用者の興味をそそる話題や、メッセージの書き込みに即応したそれら話題の掛け合いの発生や盛り上がり、流行の兆しなどの意味のある変化を利用者に飽きがこないように提示するための話題抽出手法を提案する。本手法ではユーザの興味をそそる話題として名詞句や固有名詞を話題として抽出する。そして、話題の勢いを扱える話題のスコアリング手法の提案により、それら話題の意味のある変化を利用者に飽きがこないように提示することを実現する。This paper proposes a topic extraction method for a message stream such as BBS. This method extracts noun phrases and proper nouns as topics attracting users and ranks those topics using their pressure around the latest message. As a result, the method can tell users interesting topics and a moment when a meaningful change happens on those topics.
著者
田村 浩二 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.52, pp.91-96, 1995-05-26
被引用文献数
8 3

本稿では、センター理論を用いて複文を含む一般の談話の省略を扱う手法について述べる。センター理論は、代名詞・ゼロ代名詞の照応を解析する手法の1つであり、日本語の省略解析では現在もっとも一般的な手法である。しかし、単文など構造が簡単な文にしか適用できないなどの問題があった。本研究では、複文は単文+接続助詞に分解して談話を単文の列に変換し、その単文の列に対してセンター理論を適用して省略の補完を行なう。その際、接続助詞の機能を考慮した制約条件を用いて先行詞候補の絞り込みを行なう。In this paper, we present a method of resolving complex Japanese ellipsis using centering theory. Centering theory is one of anaphora resoluting methods, and a popular method of Japanese ellipsis resolution. However, it is impossible to deal with complex sentences. We regard complex sentences as a series of simple sentences, and apply centering theory to each sentence. We restrict candidates of antecedent using constraint derived from conjunctive postpositional particle.
著者
久光 徹 丹羽 芳樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.29, pp.1-6, 1997-03-21
被引用文献数
14

情報検索や情報抽出を目的として新聞記事のように開いたテキストを形態素解析する場合,解析誤りの主因の一つは,辞書に登録されていない,社名,人名,地名等の固有名詞の存在である.本報告では,人名辞書の拡充を目標とし,漢字・片仮名表記の未登録姓名を抽出しつつ,既登録であっても,姓・名に分類されていない固有名詞を,姓・名に分類する方法について述べる.大量の新聞記事からパターンマッチにより抽出した人名候補文字列の集合を長さの順にソートし,既存の辞書と文字列の大域的な出現状況を組み合わせて,姓・名の分割を行う.高い確度で姓または名と推定される文字列が獲得された場合は,その場で辞書に追加することにより,処理の進行とともに獲得精度の向上を図る.新聞記事1年分中,「さん」の前に現れる文字列から抽出した異なり数11,123の文字列を対象とし,約25,000個の人名を含む辞書を用いて行った抽出実験の結果,新たに姓・名893個を約95%の精度で獲得し,既登録の人名3725個の姓・名判別を,約99%の精度で行った.その過程で用いた,人名接辞獲得のための効果的な支援方法についても報告する.The majority of errors in Japanese morphological analysis is caused by unknown words, most of which consists of proper names such as company names, product names, person names and place names. This paper proposes a method of acquiring unregistered person names from newspaper articles. The method also distinguishes family names from given names. Character strings which are assumed to contain person names are first extracted by pattern matching and sorted in the order of their length. Then each of the strings is divided into a family name and a given name using a lexicon and co-occurrence analysis. A newly found word having enough evidence is immediately added into the dictionary, which increases the accuracy of the following analysis. In an experiment on 11.123 different strings, 893 names were newly acquired with 95.3% accuracy and 3725 registered names were distinguished as family names or given names with 98.5% accuracy. This paper also reports an effective method of acquiring suffixes for person names.
著者
伊吹 潤 徐国偉 斉藤 孝広 松井 くにお
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.4, pp.153-160, 1997-01-20
被引用文献数
5

従来の日本語の校正支援システムでは様々な手がかりをそのままユーザに提示しており,情報の信頼性や誤り可能性の判断の大部分をユーザが行なう必要があった.我々はこれに対して誤り仮説生成部と検証部を独立させた日本語の表記誤りの自動訂正のための新たな枠組を提案する.本構成によって,システムで必要な様々なデータを独立に管理してテキスト分野移行や様々な入力手段への対応の容易さを実現し、又辞書データによる検証を経たデータのみを提示することによって広い範囲の表記誤りに対して信頼性の高い情報を提供している。Although several tools do exist for the detection and correction of Japanese orthodoxical errors, they either deal with too small part of the whole range of errors, or fail to provide reliable error information. We propose a new system for Japanese error correction, which consists of two indepently functioning parts : hypothesis generator and verificator. Hypothesis generator detects possible orthodoxical errors and assumes their original spelling from the input text, while the verificator looks up basic dictionary and word-to-word co-occurence relation to sift out improper hypotheses.
著者
平 博順 向内 隆文 春野 雅彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.173-180, 1998-11-05
参考文献数
19
被引用文献数
11

本稿では、Support Vector Machine (SVM)を用いたテキスト分類法を提案する。テキスト分類問題に対して学習手法を適用する場合、出現頻度の小さい単語まで考慮して学習を行なわいと、分類精度が落ちることが知られている。このため高い分類精度を実現するためには、高次元の単語ベクトルを用いなければならないが、過学習により分類精度が落ちてしまう危険性が生じる。SVMはKernel開数により非線形学習も可能であり、高次元の入力ベクトルを用いても過学習なしに最適解が得られる。SVMをテキスト分類に適用し、1.異なる次元の単語ベクトル、2.異なるKernel関数、3.異なる目的関数、の3点について比較実験を行なった。その結果、SVMがテキスト分類問題に対して有効であることが確認された。This paper describes a text categorization method that uses Support Vector Machines (SVMs). The accuracies of learning-based text categorization systems depend not only on frequent words but also on infrequent ones. However, high dimensionality of the data sometimes causes overfitting that harms the overall performance of the system. SVMs avoid the curse of dimensionality by using a quadratic optimization method. In addition, SVMs can also learn Non-linearity by introducing Kernel functions. We tested method from the following three perspectives: 1. word vectors of different dimensions, 2. different Kernel functions and 3. extended cost function. The results clearly show the effectiveness of SVMs for the text categorization task.
著者
ヨーナス・シューベルグ 荒木 健治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.35, pp.91-95, 2007-03-29
被引用文献数
1

我々は日本語の謎掛けを自動的に生成するシステムを提案する。本システムは謎掛けスタイルの駄酒落を生成するが、使用する辞書によって、生成される結果は様々でおる。謎掛けのためのヒントを生成するための情報源として Web を用いた。生成された謎掛けの一部を人手による評価を行った。システムが生成した謎掛けは人間が作成したものより評価が低かったが、下品な言葉の辞書を用いた場合の方が、普通の言葉の辞書を用いた場合よりも評価が高いという結果が得られた。生成された謎掛けの約30%は、文法的な誤りや、その他の要因のため意味を理解できないものであった。We present a system for generating wordplay jokes in Japanese, which generates riddle style puns. By using different lexicons, different results can be achieved. Web searches are used to generate hints for the riddles. A subset of the generated riddles is evaluated manually. Using a naughty word lexicon gave funnier riddles than using normal words, though computer generated riddles in general were less funny than human generated riddles. Many computer generated riddles contain broken grammar or in other ways fail to make sense.
著者
石田 博子 小野木 雄三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.94, pp.21-26, 2006-09-12
被引用文献数
1

一般向け医学サイトで病名を精度良く検索するには、医学用語が必要とされる。しかし、一般ユーザーは医学用語を使用しないため、検索語は日常会話内となる。そこで、日常の言葉で検索精度を向上させるため、自らの病名説明語のうち、受容器官で動機づけられた感覚における日本語での概念形成手段としての比喩表現である擬態語・擬音語に着目する。本研究では、病名解説文書を利用し自然言語処理により擬態語・擬音語と受容器・感覚との関係を得ることを目的とした。擬態語・擬音語との共起語の関連度をKL-距離(Kullback-Leibler Divergence)によって抽出し、神経生理学的感覚分類に基づき受容器・感覚を分類した。また、別の一般向け医学コーパスで本手法の分類によるカバー率を確認した。To retrieve a disorder name properly on medical site for general user, it still requires medical terms. While it is assumed that people use only ordinary spoken language for retrieval, user's ordinary expression as Japanese metaphor of sense such as an imitative word caused by reception in organ can directly influence effect. The purpose of this study was to obtain relation among imitative word, site and sense with disorder discription by natural language processing. The extract with relevance ratio between imitative word and co-occurring tems was made by KL-Divergence, and the classification was premised on neurophysiological clue. Then we checked how many terms could be covered with another data by this method.
著者
湯本 紘彰 森 辰則 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.86, pp.111-118, 2001-09-10
被引用文献数
8

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する。本論文では名詞(単名詞と複合名詞)を対象として専門用語抽出について検討する。基本的アイデアは、単名詞のバイグラムから得られる単名詞の統計量を利用するという点である。より具体的に言えば、ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる。この頻度を利用した数種類の複合名詞スコア付け法を提案する。NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した。この結果、スコアの上位の1 400用語候補以内においては 単名詞バイグラムの統計に基づく提案手法が優れていた。In this paper, we propose a new idea of automatically recognizing domain specific terms from monolingual corpus. The majority of domain specific terms are compound nouns that we aim at extracting. Our idea is based on single-noun statistic calculated with single-noun bigrams. Namely we focus on how many nouns adjoin the noun in question to form compound nouns. In adition, we combine thismeasure and frequency of each compound nouns and single-nouns, whichwe call FLR method. We experimentally evaluate these methodson NTCIR1 TMREC test collection. As the results, when we take intoaccount up to 1,400 highest term candidates, FLR method performsbest.
著者
中川 哲治 工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.9, pp.77-82, 2001-01-25
被引用文献数
2

品詞タグ付けにおいて,辞書に存在する語と比較して未知語に対する解析精度は低く,品詞タグ付けの全体の性能を左右する要因となる。本稿では,英語における未知語の品詞をSupport Vector Machineを用いて推定する手法を提案する。単語の部分文字列やコンテキストを素性として,高い精度で品詞を推定することができた。さらに同じ枠組みで,SVMを用いて品詞のタグ付けを行ったところ,100 000トークンの訓練データによる学習の結果,95.9%という従来手法以上の精度が得られた。In part-of-speech tagging, the accuracy for unknown words is lower than for known words. In consideration of high accuracy rate of up-to-date statistical POS taggers, unknown words account for non-negligible cause of errors. This paper describes POS estimation for unknown words using Support Vector Machines. We achieved high accuracy of POS tag estimation using substrings and surrounding contexts as feature. Furthermore, we apply this method to a practical POS tagger, and achieved the accuracy of 95.9%, higher than conventional approaches.
著者
壱岐 貞昭 石橋 辰夫 新山祐介 白井 清昭 田中 穂積 徳永 健伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2000, no.53, pp.95-95, 2000-06-01

「傀儡」は、自然言語によって仮想空間上のソフトウエアロボットを制御するシステムである。ユーザは音声により仮想空間上のロボットやカメラに対して指示を与えることができる。システムはその指示を解析し、意図を理解し、その意図に適した動作をソフトウエアロボットに実行させる。また、本システムは照応・省略という言語現象を扱うことができる。これらを解決するために、各ロボットは照応や省略の対象となる名詞句を保持するためのデータベースを持っている。そして、ユーザの指令から発話行為を分析し、対話の主題を推測しながらこれらのデータベースを更新することによって照応や省略を解決する。この際、ロボットやカメラからの視覚情報も用いている。Kairai is a system which controls software robots in a virtual space according to natural language commands. The user can control the robots or camera by voice. The system analyses the command and understand the intention of the command. The software robots executes a set of actions congruent with the command intention. The system can also handle anaphora and ellipsis. Each robot has a database containing noun phrases from the preceding discourse which may form the antecedent of anaphoric or elliptical references, to aid in solving these phemonena. The system extracts the speech act from the user command, and guesses the topic of conversation in the process of updating each robot database, also relying on information on the view angle of the robots and camera.
著者
苫米地 英人
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1990, no.64(1990-NL-078), pp.9-16, 1990-07-19

記号的および非記号的な制約の超並列活性化ネットワーク上での伝播による自然言語処理の手法について述べる。この手法は既存の活性化マーカ伝播による方法と異なり、複雑な言語的制約を必要とする言語現象を扱うことを可能とする。また、軽量並列プロセスを利用することにより並列計算機上に超並列制約伝播処理を実現する手法を示す。この手法により、密結合共有メモリ型並列計算機上にて完全分散型の神経回路網と記号的制約伝播ネットを共存させることが可能となる。更に既存の解析法と異なり、文法知識の増大による複雑さの増大の問題が軽量並列プロセス数の増加で対処可能となる。
著者
森 信介 長尾 眞
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.27(1995-NL-112), pp.37-44, 1996-03-14

入力文を単語に分割し品詞を付加する形態素解析は、日本語処理における基本的な処理である。英語の品詞タグ付けと異なりコーパスに基づく形態素解析の試みはあまり行なわれていない。本論文では、コーパスに基づく形態素解析の新しい手法を提案する。我々の提案は次のように要約される。)各形態素の語彙化、)附属語列の登録、)マルコフモデルの重ね合わせ。これらのアイデアは形態素解析に特有ではなく、他のコーパスに基づく手法に応用できる。以上のアイデアに基づく形態素解析器を作成し、EDRコーパスに対して実験を行なった結果、非常に高い精度を得た。
著者
林 淑隆 獅々堀正幹 伊与田 敦 津田 和彦 青江 順一
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.104, pp.63-70, 1994-11-17

文献検索システムなどにおいて、キーワードをいかに効率良く、かつ正確に抽出するかは重要な課題である。本論文では、日本語文書においてキーワードとなることが多い複合語が、キーワード抽出の際に多大なマッチング処理を要することに着目し、複数キーワードのストリングパターンマッチングマシンの手法を応用した複合語キーワードの効率的な抽出法を提案する。本手法は、形態素解析部と複合語キーワード抽出マシンAC部、複合語キーワード候補マシンAC部からなる。14個の複合語文法構造と10個のキーワード評価ルールを定義し、26文書について実験評価を行った結果、形態素解析部を除く平均抽出速度は16.58ミリ秒、文書1KBあたり6.18ミリ秒の結果が得られ、本手法の有効性を確認した。また、抽出キーワードの選別で必要となる重なり語の抽出は、候補マシンACにより効率的に行えるので、利用者はこのマシンACに対する抽出ルールを決定することで、多種多様なキーワードを決定することが可能となる。Extracting keywords efficiently is an important task in text retrieval systems. In Japanese text, there are many compound words consisting some kinds of characters (Katakana, Kanji, etc.) and the text has no delimiter among words. Therefore, extracting keywords from such a text takes a lot of time. This paper presents a technique of detecting keywords from compound keywords by introducing a set of rules, which are conditions for keywords construction. A string pattern matching machine for a finit number of patterns is applied to matching of the rules and storing keyword candidates. From the simulation results for 26 Japanese text files that the algorithm presented has performed 6.2ms/KB.