著者
大石 亨 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.29, pp.15-20, 1997-03-21
被引用文献数
4

日本語のアスペクトの研究は,継続相,完成相というような分類とそれぞれの意味を記述していく段階から,副詞的成分などの関わりを含め,アスペクト的な意味の決まり方のプロセスを整理する方向へと発展してきている.本稿では,アスペクト形式や副詞句の意味を時間軸におけるズーミングや焦点化といった認知的プロセスを表示するものとしてとらえ,動詞句の意味に対する動的な操作であると考える.その上で,動詞の意味を素性によって六種類のカテゴリーに分類し,コーパスに現れた表層表現によってこれを推定する実験を行なった.実験の結果,対象とした動詞のうち,96%のカテゴリーを一意に決定することができた.得られた分類を評価するために,最も基本的なアスペクトの形態である「シテイル」形の意味を自動的に決定する処理を行なった.200文における正解率は71%であった.これらの情報は,動詞句のアスペクト的な意味のあり方の類型を与えるだけではなく,文間の関係をとらえる際の手がかりを提供するものであると考える.The study on aspect in Japanese has evolved from the description of the meaning for each type such as "progressive" or "perfective" into the process of the determination of the aspectual meaning including adverbial phrases etc. In this paper, we consider the meaning of the aspectual markers or adverbs as the indicators of the cognitive processes such as "zooming" or "focusing" on the time-line and define them as the dynamic operations on the meaning of the verb phrases. We estimate the aspectual meaning of verbs from surface expressions in a corpus and represent them as a bundle of features. A unique category is identified for 96% of the target verbs. To evaluate the result of the experiment, we examine the meaning of si-teiru which is one of the most fundamental aspectual markers, and obtained the correct recognition score of 71% for the 200 sentences.
著者
湯本 紘彰 森 辰則 中川 裕志
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.86(2001-NL-145), pp.111-118, 2001-09-10

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する。本論文では名詞(単名詞と複合名詞)を対象として専門用語抽出について検討する。基本的アイデアは、単名詞のバイグラムから得られる単名詞の統計量を利用するという点である。より具体的に言えば、ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる。この頻度を利用した数種類の複合名詞スコア付け法を提案する。NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した。この結果、スコアの上位の1 400用語候補以内においては 単名詞バイグラムの統計に基づく提案手法が優れていた。
著者
立石 健二 石黒 義英 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.69, pp.75-82, 2001-07-16
被引用文献数
39

本稿では,インターネットに分散して存在する人の意見を一括して検索する手法を提案し,試作したシステム概要と,その検索精度を報告する.インターネットはすべての人が情報発信できる場であり,さまざまな人の意見が存在する.しかし,従来これらの意見を効率的に入手する方法は存在しなかった.提案手法では,ユーザが入力した商品名とあらかじめ辞書として用意した評価表現を近接演算する方法を用いて,インターネットのWebページから意見を抽出する.また,抽出した意見の意見らしさ(適性値)を構文的な特徴を利用して判定する.試作システムの精度を評価したところ,従来のキーワードと比較して検索結果を15%程度に絞りこめること,検索結果の上位17.1%で86.6%という高い適合率を得られることがわかった.This paper proposes a method for retrieving people's opinions from www pages, and describes its implementation as well as the evaluation results of this system. Many people are exchanging or expressing their opinions with the Internet. However no traditional system can efficiently retrieve people's opinions from the Internet. With the proposed method, our system can extract people's opinions by utiltzing word distance calculation and opinion-likeness evaluation. The averge number of the search result of this system is 85% of smaller than the result of traditional keyword-based search. The precision of this system is 86.6% within the top 17.1% of the search result.
著者
酒井 浩之 増山 繁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.94, pp.43-50, 2006-09-12

新聞やインターネットなどで1日に配信される個々の企業に関する記事は膨大な数になるが,人間にとって重要な記事とは企業業績に影響を与えるほどのインパクトのある記事である.そのため,本研究では,経済新聞記事を対象とし,新聞に掲載される個々の企業の記事の内容を解析し,企業業績に影響を与えるほどのインパクトのある記事(以下,インパクト記事)であるかどうかを判定し,そのような記事を抽出する.また,インパクト記事の内容が企業業績にとってポジティブな影響を与えるか,ネガティブな影響を与えるかを自動的に判定する.さらに,本手法で抽出対象としている企業業績発表の記事の内容を解析し,その主要因(好調な事業,もしくは,不振の事業)が記載されている文を抽出する.本手法を評価したところ,インパクト記事抽出の精度は85.8%,再現率は66.8%であり,主要因(好調な事業,不振な事業)の記述のある文抽出の精度は82.2%,再現率は26.3%であった.Many articles about each company are distributed on the newspaper or Internet in a day.However,an important article for human is an article containing a story that influences the corporate performance.In this research,we propose a method for identifying an article containing a story that influences the corporate performance and extracting such articles from a newspaper corpus.Our method judges whether the story contained in the extracted article is positive or negative to the corporate performance.Moreover,we target the articles of the announcement on the corporate performance,we propose a method for extracting sentences containing its key factor(good business or bad business).Experimental results showed that our method for extracting articles containing a story that influences the corporate performance attained 85.8% precision and 66.8% recall and our method for extracting sentences containing the key factor attained 82.2% precision and 26.3% recall.
著者
村山 紀文 南野 朋之 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.41-47, 2004-07-15
参考文献数
9
被引用文献数
2

位置情報はWeb上の情報の組織化において有用な情報と考えられるが,現状では,陽に位置情報が明記されていないため,位置情報を利用できない場合が多い.しかし,店名などの固有名はそれ自体は位置情報を直接的に示すものではないが,位置情報と関連した固有名と考えることができる. これらの固有名に対し,位置情報をメタデータとして付与することが出来れば,その位置情報を利用することが出来る. 本研究では,そのようなメタデータ付与のために必要な,固有名と対応する位置情報のデータベースを,Web上の文書から自動的に作成する手法を示す. 本稿では特に,その最初のステップとして,固有名・住所・電話番号の三つ組をWeb上の文書から自動的に抽出する手法を示す.Location information in web pages is very useful to organize information in them. However, many web pages do not include apparent location information in themselves. Though named entities, such as names of stores, are not location information, we think those named entities are related to location information. If we can annotate location information to such named entities, we can use these pages with location information. Therefore, our goal is to extract meta data base for such named entities, that include their location information, telephone number and other information. In this paper, we present a method to automatically constract triples (named entity, its telephone number, its address) from the WWW as a first step of meta data base construction.
著者
船越 孝太郎 徳永 健伸 田中穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.104, pp.35-41, 2002-11-12
被引用文献数
1

話し言葉に頻繁に現れる助詞落ち,倒置,自己修復などの不適格性は,音声対話を困難にする大きな要因の1つである.筆者らは,日本語におけるこれらの不適格性が複合して現れることを指摘し,解決法を示した.本論文では提案手法を実装し,新たに収集した音声発話データに対して評価を行なう.発話データの収集に際しては,小量の採集でも不適格性を多く含むように工夫を行なった.実際に音声認識結果に対して構文解析を行なった結果,対話システムが正しく解析できる発話が171発話から322発話に改善されることを確認した.Ill-formedness in speech, such as postposition omission, inversion, and self-correction, is a major obstacle which makes speech dialog difficult. We proposed a method to handle these sources of Japanese ill-formedness in our previous paper. In this paper, we implement the proposed method and evaluate it by using newly collected speech data. We designed the experiment to obtain ill-formedness data effectively. Among 532 utterances in the corpus, introducing the proposed method increased the number of correct analysis from 171 to 322.
著者
山本 麻由 土屋 誠司 黒岩 眞吾 任福継
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.31-35, 2007-07-24

感情に関わる研究において、言語データに発話者の感情を表すタグ(感情タグ)を付与した感情コーパスの構築が望まれている。しかし、人手で作成するには多くのコストを要する。そこで本稿では、感情コーパス作成の自動化を目指し、文中の語に基づいたナイーブベイズによる感情分類手法を提案する。Web から収集した学習データを用いた評価実験により提案手法の有効性を確認する。In this paper, we aim to develop Emotion corpus automatically using Naive Bayes Classifier. Emotion corpus is language data with emotion tags. Language data is the corpus which made by the sentences that we collected from web. Emotion tag stands for emotion of the people who wrote the sentences at the time. At first, we put emotion tags on the language data we collected. Next, we classify the language data using the Naive Bayes Classifier based on this data set, and I confirm the effectiveness of the method.
著者
柳瀬 隆史 仲尾 由雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2000, no.29, pp.151-158, 2000-03-21

本稿では、メールマガジンサービスから配信されるニュース情報を対象にして、注目ニュースを自動抽出する手法を提案する。同時期に複数のメールマガジンから配信された記事内容を分析した結果、多くの記事で報じられた話題には注目に値するものが多く、同一話題を扱った記事の多くは記事見出しの比較で判定可能なことが分かった。そこで、見出しの類似性に基づいて配信記事群をグループ化し、各グループ中の記事数などをもとに話題性が高いと思われるグループを選別する実験を試みた。グループ化の結果により抽出した注目ニュースと週刊メールマガジンの掲載記事との比較などにより、各グループに含まれる記事数を適切に制御すれば、話題性の高い情報を含んだ注目ニュースを効率的に抽出できる見込みが得られた。In this paper, we propose a method of automatic extraction of noteworthy topics using news articles delivered by e-mail newsletter services. At first we manually analyzed a set of articles delivered in a week by several e-mail newsletter services, and found that most of the topics reported in many different articles are noteworthy ones and it is possible to judge the semantic identity of articles with comparison of their headlines. Then we made an experiment of automatic extraction of noteworthy topics. In the experiment we classifyed delivered articles into groups based on the similarity of their headlines, and choose some groups based on the number of articles in each group.
著者
久光 徹 丹羽 芳樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.109, pp.113-118, 1997-11-20
被引用文献数
5

新聞記事には平均10行に1個以上の割合で括弧表現,すなわち二つの文字列A,Bが括弧により対応付けられた表現"A (B)"が現れる.このような括弧表現の一部は,"欧州連合(EU)"や"朝鮮民主主義人民共和国(北朝鮮)"等の言い替えの括弧表現,"日立製作所(会社人事)"等の固有名詞を含む括弧表現であり,これらが特定できれば多数の重要語や固有名詞を獲得できる.本報告では,共起の強さを計る統計指標とエントロピーを字種情報などに基づく単純なルールを組み合わせ,上記の有用な括弧表現を簡便かつ高精度に獲得できることを示す.共起の強さを計る指標として,自己相互情報量,χ^2検定,Yate補正したχ^2検定,頻度,尤度比,Dice係数,改良Dice係数の7種類を比較し,それぞれの効果を調べた.One year worth newspaper articles contain about 300,000 parenthetical expressions. Some of them contain important unregistered words (terms) such as abbreviations, organization names, and company names. The detection of such expressions is therefore an effective way of lexical knowledge acquisition. The proposed method identifies useful parenthetical expressions by combining entropy criteria, a statistical measure to evaluate collocational strength, and a small number of simple rules. In order to select a proper statistical measure, we conducted a comparative evaluation of seven statistical measures: mutual information, χ^2-test, χ^2-test with Yate's correction, frequency, log-likelihood, Dice coefficient, and modified Dice coefficient.
著者
小林 義行 山本 修司 徳永 健伸 田中 穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.47, pp.1-8, 1994-05-27
被引用文献数
3

複合名詞の解析は、実用的な自然言語解析システムの実現において、解決しなければならない困難な問題の1つである。本論文では、語の共起の統計的な情報とシソーラスを用いて日本語複合名詞の構造を解析する方法について述べる。語の共起関係は16万語の4文字熟語から獲得した。新聞、用語集から抽出した平均4.9の漢字からなる複合名詞を解析し、最終的に約80%の精度で解析することができた。Analyzing compound nouns is one of the crucial issues for natural language processing systems, in particular for the systems that aim wide coverage of domains. In this paper, we propose a method to analyze structures of Japanese compound nouns by using both statistics of word collocations and thesauruses. An experiment is conducted in which 160,000 word collocations are used to analyze compound nouns of which average length is 4.9. Finally, the accuracy of the method is about 80%.
著者
仁井 正治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.63, pp.57-64, 1994-07-21

現在の機械翻訳システムは、言語感覚や翻訳レベルで、開発した研究開発者のそれら以上には、決してなり得ない。超一流の翻訳者といえども、勉強して日々研鑚に励んでいるのに、機械翻訳システムは、購入した時点の言語レベルのままである。もはや、研究開発者(私も含む)が、システムの言語レベルで、主導権を取る時代ではなく、真に実用に耐え得る機械翻訳システムの言語レベルは、ユーザーに任せる時期にきている。我々は、EBMT方式で、ユーザーが手作りに近い感覚で、言語レベルを向上させる得る、機械翻訳システムTOPTRANを開発した。本稿では、TOPTRANにおける学習機能の捉え方と事例の学習方法について述べる。Current machine translation systems cannot surpass the language snese and translation ability of the researchers who develop them. Although even the best translators pursue their studies daily, machine translation systems remain at exactly the same level of language ability as when they were purchased. Now it is no longer an age when research and developers (myself included) take the lead in determining system language ability; it has become, rather, an age when this is to be left to the users of machine translation systems that can stand up to actual use. We have developed TOPTRAN whose language ability is increased by users in an almost a do-it-yourself fashion. This paper will explain TOPTRAN's learning functions and methods of example learning.
著者
仁井 正治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.28, pp.81-88, 1994-03-17

現在、数多くのユーザーで、機械翻訳システムが導入されて使用されている。しがしながら、導入ユーザーの内、コストに見合っただけの機械化による作業の効率化が計られているユーザーは非常に少なく、我々を始めとして、大多数のユーザーは、現状の機械翻訳システムに不満を持っているものと思われる。その原因はいくつか上げられるが、大きな原因の一つは、機械翻訳システムがメーカーの論理に基づいて開発されているためであると思われる。我々は、「ユーザーのユーザーによるユーザーのための」英日・日英機械翻訳システムの研究開発中である。本稿では、我々ユーザー自身が研究開発中の機械翻訳システムTOPTRAN(PPAN Translation Database Syst)の概要について報告する。Recently, many users are equipped with machine translation systems. However, the enhancement in efficiency brought by the mechanization of translation does not always deserve the introduction and running cost. Many users, including us, seem to be dissatisfied with current machine translation systems. We suspect that one of the biggest reasons would be the developing philosophy based on manufacture's logic. Conversely, we are in course of R&D enterprise of a MT system 'of the user, by the user. This paper overlooks our system called TOPTRAN (TOPPAN Translation Database System).
著者
北内 啓 宇津呂 武仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.21, pp.41-48, 1998-03-12
被引用文献数
2

本研究では、日本語形態素解析の確率モデル学習におけるパラメータ推定の精度を上げるための有効な品詞分類を自動的に学習した。解析誤りをもとに詳細化する品詞分類を素性として取り出し、品詞分類を段階的に細かくしていく。学習によって得られた品詞分類を用いてbi-gramのマルコフモデルに基づくパラメータ推定を行うことにより、形態素解析の精度を向上させた。実験により、人手で調整して決めた品詞分類に比べ、より少ないパラメータ数でより高い精度を得ることができた。また、品詞分類によってパラメータ数や精度がどのように変化するかといった、品詞分類全体の性質をとらよることができた。This paper proposes a method of an learning optimal set of part-of-speech tags which gives the highest performance in morphological analysis. In our method, considering patterns of errors in the morphological analysis, first, candidates of more specific part-of-speech tags to be included in the model of morphological analyzer are generated. Then, the most effective candidate which gives the greatest decrease in errors is employed. In the experimental evaluation of the proposed method, we achieve a morphological analyzer of higher performance compared with a model with a hand-tuned set of part-of-speech tags, and with much smaller number of parameters.
著者
荒木 哲郎 池原 悟 土橋 潤也 堂元一頼
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.61, pp.9-16, 1993-07-09
被引用文献数
2

2重マルコフモデルを用いた日本語誤字の誤り訂正法を、マルコフモデルを適用する位置に着目して分類すると、検出された誤り音節または、漢字かな文字に限定してマルコフモデルを一回適用する方法(局所法)と、誤り音節または漢字かな文字を含む文字列全体に適用する方法(全域法)があり、前者は後者に比べて少ない処哩時間で行える特徴がある。これまでに局所法については、文節並びに単語境界で検出された音節、漢字かな文字の誤りを訂正する問題に対して、誤り位置に応じて順方向、中間、逆方向タイプの2重マルコフモデルを適用する方法の有効性が報告されている[9]。本論文では、全域法の誤り訂正能力を定量的に評価し、局所法との比較を行う。全域法においては、三つのマルコフ連鎖確率がそれぞれ中心的な役割を果たすことに着目して、これらのマルコフ連鎖確率を単独に用いて誤り訂正を行う三つのタイプの局所法について、文節境界における誤り文字の位置(文節の先頭誤り、2番目及び3番目以降)に関する誤り訂正の評価を行い、全域法と局所法の比較を行う。新聞記事77日分の統計データを用いて、順方向、逆方向並びに中間タイプの2重マルコフ連鎖確率を求め、日本語音節文及び漢字かな交じり文の2000箇所の誤りに対して、局所法と全域法による誤り訂正実験を行った。その結果、()全域法では、順方向タイプの2重マルコフモデルが、常に他のタイプよりも優っていること、また ()全域法は局所法よりも優っていることなどがわかった。This paper investigates two methods to correct erroneous syllables and kanji-kana characters located at the boundaries of "bunsetsu" using three types of 2nd-order Markov model, called as forward, backward and middle type respectively. One is called the local method which is to correct erroneous characters using Markov model only once. The other is the global method which is to correct erroneous syllables and kanji-kana characters by applying Markov model to all the string of syllables and of kannji-kana characters. According to the experiment using 70 issues of a daily Japanese newspaper, the following results was obtained. 1. In the case of global method, the method to correct erroneous syllables and kanji-kana characters using Markov model of foward type is always superior to that of the other types. 2. The capability of error correction using the global method is always superior to that of the local method.
著者
川添 一郎 牧 隆史 田中 規久雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.52, pp.97-104, 1995-05-26
被引用文献数
3

法律条文は、一見多種多様な形態を持つと思われるが、目的的に運用される一種の制限言語と考えることができ、その構造的特性に着目した操作を行うことで、ある特定の典型構造に変換することが可能となるのである。本研究では、いわゆる「標準構造」を基に、自然言語を用いた法律条文の検索参照システム作成の為の基礎的研究を行う。特に、意味内容の操作面での問題を具体的に検証することにより、より現実的な対処法を目指す。そして、この対処法と「標準構造」との組み合わせを用いた、システム構築例を提示する。It is generally thought that "Legal Provisions" have various surface forms. However, this system of provisions can be understood as a subset of natural language system. Because of this characteristic, it is possible to transfer those provisions into almost one form which has a specific structure. In this study, we depend on this characteristic - the so-called "Standard Structure". And we do basic research for constructing a reference system of "Legal Provisions" through their natural language form. We verify the treatment of each provision in order that we can establish the proper method. Lastly, we propose an example of such a system by using this method and the concept of "Standard Structure".
著者
田中 規久雄 川添 一郎 成田 一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.79, pp.79-86, 1993-09-16
被引用文献数
9

法律条文(法文)の構造的特徴に着目し、法知識ベースをはじめとする、機械処理に適するモデルの構築をめざす。本研究では、「要件・効果論」が法律条文の基本的認知構造であるとし、法律条文を、「要件・効果」をあらわす典型的な表面表現(「標準構造」と呼ぶ)に変換することによって形式化する。さらにその意味構造については、「法文概念構造(gal Provision Concept Tree Structure [LP?CTS])」を想定して解析することにより、法律条文の形式的な知識の記述や操作を可能にする。The purpose of this paper is to construct a model which is suitable for computer processing of legal provisions (law sentences). In this study we suppose the principle of "legal condition-effect" to be the fundamental cognitive structure of legal provisions. We can formalize provisions by translating them to the typical surface expression (we call it "the standard structure") which reflects the "legal condition-effect". We also propose "Legal Provision Concept Tree Structure (LP-CTS)" for the analysis of the semantic structure of legal provisions. This model will be applicable to the description and operation of legal knowledge.
著者
北 研二 山口 直宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.127-134, 1998-11-05
被引用文献数
1

World Wide Web (WWW)上には、膨大なテキスト情報が蓄積されており、同一の内容を複数の言語で提供しているページも数多く存在する。これらのWWW上の対訳ページを利用し、対訳コーパスを自動的あるいは半自動的に構築することができれば、コーパス作成に要する人的資源、時間、費用などを大幅に削減することができる。我々は、WWWから日本語と英語の対訳データを自動収集する実験的なシステムを構築した。本稿では、このシステムの概要について紹介する。The World Wide Web provides almost unlimited accesses to the textual documents and it also contains parallel pages in many languages. In this paper, we focus on the problem of automatically compiling multilingual translations from the Web. As a first step towards Web-based automatic multilingual corpus creation, we developed an experimental system for compiling Japanese and English translation pairs from the actual Web page documents. In this paper, we describe the system architecture as well as some experimental results.
著者
中村 俊久 黒橋 禎夫 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.47, pp.89-96, 1994-05-27
被引用文献数
2

自然言語処理において、形態素解析はべた書き文からあらゆる可能な単語を抽出しなければならないので、日本語単語の高速辞書検索は必要不可欠なことである。そこで本検索法では、まず登録する単語を部分文字列にわけ、それぞれわけられた文字列に単語の長さ情報をもたせて登録していくことを考えた。これにより辞書検索を部分文字列で行なうことができ、素早く単語の長さ情報を得て目的とする単語までスキップすることができるので、むだな辞書引き動作をなくすことができた。したがって、部分文字列を利用する簡単なシステムとなり、データ構造にはパトリシアを用いてまたデータの検索・挿入・削除にはハッシュ法を用いた高速な検索方法を提案する。なお、本検索法を用いた日本語形態素解析システム(MAN?)で、従来のシステム(MAN?m)との解析処理時間を比べると、かなり高速化できたことを確認した。It is important to realize high-speed retrieval method, because all possible words must be extracted from solid Japanese written sentences in Japanese morphological analysis. We intend to separate words to partial character string, then record them in the dictionary with character length information. It is possible to extract words quickly by using character length information, and remove useless retrieval action. For estimating this method, we build a simple retrieval system which makes use of partial character string information. In this system, we used Patricia as the data structure, and hashing for retrieval, registration, and deletion of words. JUMAN-NK, which uses our hi-speed retrieval system, can do Japanese morphological analysis 2.7 times as fast as the current system JUMAN-mcc.
著者
梅木 定博 後藤智範
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.33, pp.113-118, 2008-03-28
参考文献数
8
被引用文献数
3

日本語のテキストにおいて、主要な概念・テーマは漢字熟語または漢字熟語を含む名詞句に表現されることが多い。特に数文字以上の漢字熟語は、より短い漢字熟語、すなわち語基(word base)から構成され、統語的、意味的構造を有している。大規模な漢字熟語集合について、これらの構造を分析することは漢字熟語の造語構造、形態素解析、関連語の選定、未知語の推定など様々な自然言語解析に有用な基礎データを提供するものと考えられる。本研究は、一般辞書および専門用語辞書の見出し語から7文字の漢字熟語を対象に、構成語基の観点から品詞列パターンおよび構成語基の係り受けパターンについて調査・分析した。Kanji compound words or noun phrase consisted in them intend to explain key concepts or themes in Japanese texts.. Especially long kanji compound words have these characteristics in academic papers or patent documents. Long kanji compound word, which has five letters more consists of short word bases and have syntactically and semantically structures. It should be much beneficial to study to a large set of long kanji words based on word base sequence patterns.Our research examines the patterns of the large set of kanji compound words with seven letters which are contained in entry terms of the various kinds of dictionaries. This paper reports the occurrences of kanji compound words and the number of parts of speech sequence per a word base sequence pattern.
著者
田中 英輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69, pp.89-94, 1995-07-20
被引用文献数
4

自然言語処理に利用するための規則をコーパスから学習する研究が最近盛んになっている.これらの研究では,得られた規則の適用範囲をいかに一般化するかが大きな課題となる.なぜなら,コーパスから直接学習される規則はそのままでは適用範囲が極端に狭いからである.現在はこの問題を解決するためにシソーラスを利用した手法が試みられている.このとき,シソーラス上のどの概念で規則を一般化するかが問題となる.しかしシソーラス上のノードの選び方は,組合せ的に爆発を起こすためその決定は容易ではない.本稿では,この問題を線形時間で解く基本的なアルゴリズムを提案する.本稿の問題は一般的に言うと帰納学習の分野で問題とされていた「構造化属性」の問題に属する.さらに,決定木の最適部分木を求める問題とも等しい.The proper treatment of structured attributes in inductive learning is getting much attention as this learning technique is now frequently applied to the knowledge extraction in natural language processing, In this context, the problem is finding a set of thesaurus nodes that maximally generalizes words in the learning source, but causes minimum errors. The number of candidate node sets, however, explodes as the thesaurus size increases, and no efficient algorithm has been discovered so far. In this paper, we propose the algorithm T^* which can find the optimal node sets in linear-time. This algorithm first converts the thesaurus into a directed acyclic graph changing this difficult problem into a shortest path problem with a graph where we can use an efficient algorithm. We then show that T^* can also be used to find the optimally pruned decision tree.