著者
熊本 忠彦 太田 公子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.4, pp.35-40, 2002-01-21
被引用文献数
8

我々は、音楽作品に関する知識が乏しい人でも簡便に利用できる「印象に基づく楽曲検索システム」を構築している。楽曲検索には、曲名や作曲家名、演奏家名といった書誌的な情報に基づくものや、(鼻歌)や歌声などの音響情報を用いたもの、歌詞(テキスト)情報に基づくものなどがあるが、これらの検索手段では、知らない曲や内容を忘れてしまったような曲など必要な情報を提示できない曲は検索できない。これに対し、印象に基づく楽曲検索は、楽曲の印象という曖昧な入力でも検索できるので、音楽情報に疎い人でも利用することが可能である。楽曲検索システムへの入力(すなわち印象)は、複数の印象尺度(楽曲印象を表現する形容語の対からなる尺度)とその評価値(7段階評価)の組合せによって表現される。したがって、楽曲検索システムがユーザフレンドリーであるためには、ユーザの検索意図を表現できるような印象尺度を用いる必要がある。本稿では、そのような印象尺度の設計方式を提案する。なお、楽曲のジャンルとしては、いわゆるクラシック(古典的西洋音楽)を対象としている。We are developing a system that will retrieve a music piece based on the user's impressions of it. People who have extensive knowledge of music can easily retrieve a specific music piece from a large music database by inputting concrete information such as the title, the names of the performers, or the name of the composer. However, people who lack such knowledge have difficulty in retrieving a specific music piece because they cannot give concrete information about it. Our music-retrieval system will enable anyone to easily retrieve a specific music piece by inputting expressions that describe their impressions of it. We have defined ten pairs of words the system will accept as input and have designed an impression scale for each one. Each scale has two words representing contrasting impressions, e.g. "sad" and "happy," and seven scale values between the two words. Users select a scale value for one or more scales to represent their impressions of the target music piece.
著者
千田 恭子 篠原 靖志 坂内広蔵
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.7, pp.21-26, 1996-01-19
被引用文献数
2

検索の初期入力を支援するため、汎用シソーラスを利用して検索対象の文章中に含まれる語を意味別に分類して提示する索引メニューシステムについて報告する。検索に役立てるために、対象領域用のシソーラスを作成し、文書中の用語をそのシソーラスの分類にそって意味別に提示するシステムがある。しかし、検索対象ごとにシソーラスをつくるのはコストがかかる。そこで我々は、「分類語彙表」という汎用的なシソーラスを利用し、ある企業の規定文書を対象に、低コストで簡便な索引メニューシステムを試作した。しかし分類語彙表の体系は索引提示に利用するために作成されていないため、そのまま利用するには、最上位のメニュー提示に適した階層がないなどの問題点があった。そこで、索引項目を二つに分け、分類の視点がより明確である項目を先に提示するなどの修正処置を行なった。本論ではそのような修正を含めた索引メニューの構築方法と、その考察を述べる。We report a nex method for making an index menu of full text database. This index menu and its presentation system supports finding keyword for the users unfamiliar to the target text database. Although, some existing full text database systems have special thesaurus developed to match their contents, it is expensive to develop different thesaurus for each databases by the experts. Hence we developed an index menu by modifying a general thesaurus "Bunrui-Goi-Hyou" to make an index of text databases in general. We discuss on the general thesaurus, modification process, and an index menu presentation system.
著者
金杉 友子 笠原 要 稲子 希望 天野 成昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.66, pp.119-124, 2002-07-15
被引用文献数
1

意味に関する言語処理技術の基盤となりうる概念辞書である"常識概念体系"を構築する第一歩として、人々の概念的な思考で共通して利用していると推定される基本的な語の集合("基本的語彙"と呼ぶ)を選定した.選定の対象としては学研国語大辞典(9万5千見出し語)を用い、選定の尺度として、心理実験により評定される単語の馴染み深さを表す単語属性である単語親密度を用いた.過去の研究において12歳児の理解語彙数の推測値が2万5千と報告されており、別の語彙数調査結果から、同数の語彙を成人の94%が知っていると推測される.そこで、基本的語彙数を2万5千程度と定めた.国語辞典の見出し語について、過去の単語親密度に関するデータベースに含まれていない3万3千語の追加の評定実験を行い、9万5千語から親密度が高い2万7千語を基本的語彙として実際に選定した.As the first step of constructing a dictionary of word concepts, the "Commonsense Concept Database," which will be a base for language processing technologies regarding meaning, we selected basic words which are supposed to be commonly used by Japanese adults. We selected the basic words from a Japanese dictionary in which the number of word entries is about 95,000. In a previous study, the size of the basic words which a Japanese child of twelve years knew was estimated to be 25,000. From the another recent psychological study estimating the number of the vocabulary in Japanese speakers, we were able to estimate that 25,000 of the Japanese basic words were known by 94% of Japanese adults. Therefore, we selected the number of basic words for Commonsense Concept Database to be 25,000. As a measure of selecting the basic word, we used word familiarity ratings. We did farther psychological experiments of rating familiarity of words in the Japanese dictionary which had not been listed in the word familiarity database previously published. Finally, we selected all words with a familiarity rating above five(between seven point scale) which gave us around 27,000 words out of the 95,000 entries of the dictionary.
著者
高村 大也 乾 孝司 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.22, pp.79-86, 2005-03-11
参考文献数
14
被引用文献数
1

単語の感情極性(望ましいか否か)を判定する方法を提案する。提案手法では、単語の感情極性をスピンの方向とみなし、語釈文によって構築された語彙ネットワークをスピン系でモデル化する。平均場近似を利用してスピン系の状態を近似的に求めることにより、単語の感情極性を判定する。また、系の状態に影響を与えるハイパーパラメータの予測方法も同時に提案する。英語と日本語で実験を行い、数語から十数語という少数の単語を種として、高い正解率で単語の感情極性判定が実現できることを示した。We propose a method for extracting semantic orientations of words:desirable or undersirable. Regarding semantic orientations as spins of electrons,we use the mean field approximation to compute the approximate probability function of the system instead of the intractable actual probability function. We also propose a criterion for parameter selection on the basis of magnetization. Given only a small number of seed words,the proposed method extracts semantic orientations with high accuracy in the experiments on English lexicon and Japanese lexicon. The result is comparable to the best value ever reported.
著者
難波 英嗣 国政 美伸 福島 志穂 相沢 輝昭 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.73, pp.67-74, 2005-07-22
被引用文献数
9

「日経平均株価」や「内閣支持率」のように数値が時間とともに常に変動するような情報のことを動向情報と呼ぶ。本稿では、動向情報の抽出を一種の複数文書要約であると考え、複数文書要約技術を用いて、あるトピックに関する複数の文書から動向情報を自動的に抽出し、グラフ化する手法について述べる。複数文書からの要約の作成は、様々な要素技術を組み合わせることで実現できる。こうした技術のひとつとして、我々は文書横断文間関係理論(CST)に着目する。CSTとは、Radevらが提唱している理論で、文書中の書く分の機能を特定し、文間の依存関係を特定する修辞構造理論(RST)を、文書間関係に拡張したものである。本研究では、CSTの一部を計算機上で実現し、それを用いてグラフ化に必要な数値情報と時間情報の抽出を行う。Trend information is defined as information obtained by synthesis and organization of temporal information such as cabinet approval ratings and stock movements. In this paper,we describe a method for visualizing trend information extracted from multiple documents. We focus on cross-dokument structure theory (CST) which Radev et al. proposed. The theory expands the notion of Rhetorical Structure Theory (RST) to the relationships between sentences in the different documents. We implement this theory partially,use it to extract trend information,and visualize it as a graph.
著者
奥村 敦史 齋藤豪 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.63-70, 2003-03-06
被引用文献数
5

感性を表す言語であるオノマトペ(擬音語・擬態語)は新語・造語が多く,既存の辞書には語彙が不足している.また,既存の自然言語処理用コーパスにもオノマトペはあまり出現しない.そこで本研究では,自動生成したオノマトペ候補語をクエリとしてWeb上のテキストを検索し,候補語を含む用例を取得することでこれをコーパスとみなす.次に得られたコーパスを解析し,候補語がオノマトペかどうかの判定を行う.オノマトペと判断された語については,係り受け解析結果の頻度情報などを利用し,その語義や用法を得る.最後に,複数の候補語の語義を照らし合わせて,語義間の距離を定義したオノマトペ概念辞書を構築する.Onomatopoeias which express sensibility include many new words and coined words, and the existing dictionaries are insufficient of their vocabularies. Furthermore, onomatopoeias seldom appear in the existing corpus for natural language processing. In this work, we generate candidate words of onomatopoeias automatically and search the text on the Web with a search engine using the candidates as a query. Therefore we can acquire a corpus containing examples of the candidates. Then, we process the corpus and judge whether each candidate is onomatopoeia or not. If a candidate is judged to be an onomatopoeia, we give its sense and usage from results of syntactic analysis, and construct a concept dictionary of onomatopoeias.
著者
高橋 伸弥 森元 逞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.73, pp.135-139, 2005-07-23
被引用文献数
4

従来の音声認識では、咳やくしゃみ、あくびのような非言語音または非音声音は、誤認識を引き起こす雑音として扱われて来た。しかし、自然な音声対話を実現する場合、このような音情報も積極的に利用すべきである。このような非言語音声を検出する方法としては、対象音の音響信号的な特徴を用いた信号処理的アプローチや、対象音から学習したHMMを用いる音声認識的アプローチなどがあるが、対象音の多様性に対処するためには、いずれも多量のデータが必要となる。そこで本研究では、対象となる非言語音声を音素系列で近似表現した擬似単語モデルを提案する。このモデルは、音素認識の結果得られる音素系列をクラスタリングし、上位クラスターの中心となる音素列パターンを非言語音声の近似的な発音とするというものである。提案手法の有効性を確認するために、咳及び咳払いを対象として、音声認識実験を行い、咳/咳払いの波形を学習データとしたHMMを用いる手法と比較して、認識正解率、認識精度が改善されることを示した。This paper proposes imitated word models that represent non-verbal sounds,especially cough sounds here,as phoneme sequences. In conventional speech recognition systems,non-verbal sounds,so-called human noises,are processed as burden noises that cause mis-recognition. Non-verbal sounds are,however,important information to know user`s physical and psychological condition. In particular,coughing is one of the most important barometers of daily health check,so we propose an approach to cough sounds from user utterances using the imitated word models constructed by clustering of phoneme sequences obtained in phoneme recognition. The experimental results show that this approach can improve the correct rates and the accuracies for words and coughs compared with the approach using HMM constructed from cough waveforms.
著者
安藤司文
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.52, pp.51-58, 1995-05-26

人間は,質問と応答,知識の獲得,物語の理解などの知的な活動を,頭の中にある概念構造を用いて行っている.人間の頭の中にある概念構造を記号化したものを普遍言語と名付け,その普遍言語をベースにして,日本語と英語の普遍的な言語構造と個別言語固有の言語構造を検討し,次の点を明らかにした.()日本語や英語などの自然言語の文はいづれも"?がある","?である","?をする"という3種類の基本単文(基本意味単位)で構成されている.()どのような複雑な意味を表現する文でもいくつかの単文が結合されたものである.()日本語や英語の単文の語順は,基本単文内での語順によって決定される.()多様に表現される文でも,意味が同じであれば,同じ意味構造を持っている.Human beings seem to evolve intellectual activities. such as questioning and answering. acquisition of knowledge. comprehension of stories, etc, utilizing conceptual structures in their human brains. If these intra-cerebral conceptual structures can be extracted as symbolized in some particular concrete ways. we designate them UNIVERSAL LANGUAGE. We have studied universal linguistic structures and individual linguistic structures as they are inherent in Japanese and English, based upon the UNIVERSAL LANGUAGE. This has bought about the results as follows: (1) Natural sentences in Japanese and English are composed of three kinds of primitive sentences (basic meaning units), that is, (縲鰀 ga aru), (縲鰀 de aru), (縲鰀 wo suru) (2) Sentences, which even express complicated meanings, are unifications of simple sentences. (3) The word order in simple sentences in Japanese and English has been determined by that of the primitive sentences. (4) Sentences, expressed in various ways with the same meaning inherent in them, have the same conceptual structures.
著者
鈴木 泉 大里有生
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.1, pp.55-60, 2006-01-12

インターネット検索において、人間が検索クエリーを作成する際の支援をするシステムを提案する。そのために先ず、検索行為の認知モデルを実験により明らかにした。本システムでは、人間は最初に1回だけ、クエリーに使われる可能性のある語をファジィ集合として与える。実際に検索で使用するクエリーは、人間が与えたファジィ集合に基づいて生成される。検索に成功するまでクエリーを変更してこれを繰り返すが、その際、人間が与えた指示には常に必ずしも従わないほうが、逆に良い結果をもたらすという、大局的学習法の考え方が適用できる。大局的学習法を適用することの有効性を、実際の検索を行って検証する。A human support system is introduced that assists human to create queries in Internet searching. For this purpose, a human recognition model of searching activity is described by performing an experiment. In the initial stage of the system, the human is requested to identify the entire word set that can be part of the queries, by means of a fussy set. Then, every seaching query is generated by obeying the Fuzzy set until the human successes the searching. However, the system can be even more useful if the system does not always obey the human instruction, which is outlined as the Global Learning Method. How the Global Learning Method is applied to this system, and why it can be useful are discussed by referring an experiment in which the proposing system is employed.
著者
白井 清昭 徳永 健伸 田中 穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.47, pp.81-88, 1994-05-27
被引用文献数
6

本論文は構文構造が付加されたコーパスから自動的に文脈自由文法を抽出する方法について述べる。まず構文構造内のノードに自動的に非終端記号を割り当てて、規則数210600の曖昧性のない文法を抽出した。次に自動的に割り当てられた非終端記号に対して、抽出された規則の右辺の記号列を見て人間が適切な名前を与えることにより文法の規則の数を削減した。さらに非終端記号に対する名前付けを自動的に行う方法も提案した。また、文法中の右辺長の長い規則を右辺長の短い規則を用いて分解することにより、さらに文法サイズの縮小を試みた。最後に抽出した文法を用いてコーパスの例文の統語解析を行い、統語的な曖昧性の数を調べる実験を行った。This paper discribes a method of automatic extraction of context-free grammar from bracketed corpus. First, unambiguous grammar with 210600 rules is extracted by automatically replacing nodes in trees with non terminal symbols. In order to reduce the number of the rules, we give proper names to non terminal symbols taking account of the right hand side of the rules. For further reduction of grammar size, we decompose rules which have many symbols in the right hand side. Finally, we conducted an experiment to analize sentences with the extracted grammar.
著者
山下 達雄 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.17-22, 1998-11-05
被引用文献数
1

形態素解析処理において、日本語などのわかち書きされない言語と英語などのわかち書きされる言語では、形態素辞書検索のタイミングや辞書検索単位が異なる。これらを同じ枠組で扱うことにより、辞書検索部の多言語化を行った。また、これに関連し、形態素解析処理のモジュール分割を行い、多言語形態素解析ツールキットとして実装した。実験として日本語、英語、中国語、韓国語での実装を行った。To develop a multi-lingual morphological analyzer, we need to recognize crucial differences between segmented languages, like English, and non-segmented languages, like Japanese. One difference is the way the dictionary is looked up. We developed a framework of dictionary look-up to achieve a uniform treatment of both types of languages. Processing undefined words and inflection is another difference. To minimize these language dependencies, we divided whole system into some modules. We implemented a multi-lingual morphological analyzer, in which morphological analysis of Japanese, English and Chinese are experimentally implemented.
著者
宮森 恒 赤峯享 加藤 義清 兼 岩憲 角 薫 乾 健太郎 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.103-108, 2007-07-25
被引用文献数
2

本稿では、情報の信頼性を自然言語処理に基づいて分析する際に必要となる評価用データおよびプロトタイプシステム WISDOM について述べる。われわれは、ウェブ上のテキストを主な対象として、情報信頼性を分析することを目指したプロジェクトを 2006年 4月より進めている。本プロジェクトでは、ウェブ上の情報の信頼性を、情報内容、情報発信者、情報外観、社会的評価といった4つの基準で捉えることを提案しており、これらを述語項構造を単位とする自然言語処理によって論理的に分析・組織化することを目指している。本稿で述べる評価用データは、これら種々の分析処理の学習・検証用データとして構築されたものであり、時事問題、医療問題等の 20 トピックを選定し、各 100 ウェブページを収集して、各評価尺度のデータを人手で付与したものである。また、情報信頼性を多角的に評価するプロトタイプシステム WISDOM を開発した。本システムを用いて上記評価尺度で条件を様々に変化させて情報閲覧することにより、興味のトピックについて、信頼できる情報をより確実に見極めることができるようになる。Evaluation data and a prototype system named WISDOM used for analyzing information credibility based on natural language processing are described. Our group started the Information Credibility Criteria project in April, 2006, mainly to analyze the credibility of information (text) on the Web. The project proposes to capture information credibility based on four criteria (content, sender, appearance, and social valuation) and aims to analyze and organize them logically using natural language processing based on predicate argument structure. The evaluation data were developed as learning and verifying data for these various analysis modules, and were composed of manually-annotated data based on each evaluation criteria about pre-selected 20 topics such as current events and medical issues with 100 pages per topic being collected from the Web . The prototype system WISDOM was developed to provide information credibility from different perspectives. Users will be able to find credible information more reliably by browsing information using different evaluation criteria and conditions provided by the system.
著者
中川 哲治 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.197-204, 2004-07-16

本稿では,中国語と日本語の単語分割を行うために,コスト最小法と文字タグ付け法を組み合わせた単語分割手法を提案する.単語分割に関してこれまでに多くの研究が行われているが,一般に単語単位で処理を行うコスト最小法は未知語の扱いが困難であり,文字単位で処理を行う文字タグ付け法は既知語に対する精度が低い.そこで,2つの手法を組み合わせることでこれらの問題を解決することを試みる.複数のコーパスを使用して中国語と日本語の単語分割実験を行った結果,高い解析精度が得られることを確認した.In this paper, we propose a hybrid method for Chinese and Japanese word segmentation which combines the Markov model-based method and the character tagging method. In general, word-based Markov models have difficulties in handling of unknown words and the character-based character tagging method performs worse than other methods for known words. In order to solve these problems, we combine the two methods. Experimental results of Chinese and Japanese word segmentation with multiple corpora showed that the method achieves high accuracy.
著者
若田 光敏 兵藤安昭 池田 尚志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.22, pp.65-72, 1999-03-04

日本語では「は」は基本的には文中での主題を表すが,一文の中に複数の「は」が現れることも多く,その場合,「は」のスコープを確定することは,日本語文の解析において重要である.特に長文では,「は」のスコープを正しく認識することは,文の大域的な構造を把握することと一体の関係がある.本稿では,「は」のスコープを解析していく手がかかりとして行った,コーパス中での「は」の出現パターンについての分析結果について述べる.また,連体形述語の前に位置する連用形述語の係り先に関しても若干の分析を述べる.なお,コーパスの分析に際しては,我々が開発中の解析システムIBUKIをツールとして用いた.Japanese postpositional function word "wa" plays an imortant role in a sentence representing a topic. In a long sentence there can appear more than one "wa". To grasp correctly a global structure of a long sentrence it is definitely important to decide accurate scopes of each "wa". This paper describes our analysis of "wa" scope pattern in a large corpus. Besides we investigated in a large corpus a scope of an adnominal embedding sentence, which is also important to grasp a long complex sentence structure. To analyze and extract sentences including designated expression pattern, the syntactic analysis system IBUKI which is developed at our laboratory is used.
著者
伊藤 元之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.11-16, 2003-03-06
被引用文献数
2

現在我々は、社内情報システムに関する社内からの問い合わせに答える際に、社内ヘルプデスクオペレータが使用するための、過去の応対事例記録検索システムを作成している。これまで、全文検索システムをベースにシステムを開発してきたが、全文検索では、問い合わせの意味内容を捉えた検索が十分に実現できないという問題点がある。従来型の検索システムでも、(1)語に重要度を導入し、適合度評価の際に重み付けをする、(2)句や節といった構文構造単位の合致度に着目し、そのレベルでの合致性を適合度評価に加味する、といった補完的措置が試みられているが、根本の検索原理が、統計処理であるために、その種の、意味を考慮した補完措置との整合性のコントロールが難しく、安定に精度を上げていくことが難しい。本研究では、ドメインモデルの導入により、意味情報をより安定に利用できる検索システムを実現する方法について検討する。In the field of document search, many full-text search systems have developed by applying various statistical analysis methods. But to establish a truly flexible search system, we must introduce some semantic-based analysis methods to the system. We have now constructed the document search system which prepare for a domain model on which the system interprets input queries.
著者
下岡 和也 河原 達也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.44, pp.81-88, 2002-05-23
参考文献数
12

講演音声のような話し言葉の書き起こしや音声認識結果には、話し言葉特有の表現が数多く含まれて二次利用しにくいため、文章として適した形態に整形する必要がある。本稿では、統計的機械翻訳の考え方に基づいて講演の書き起こしを自動的に整形された文章に変換する方法を提案する。本研究で扱う処理は、フィラーの削除、句点の挿入、助詞の挿入、書き言葉表現への変換、文体の統一である。これらの処理を統合的に行うようにビームサーチを導入した。以上の手法により、実際の講演の書き起こしを整形された文章に変換し、講演録編集者によって一次整形されたものを正解として、句点の挿入、助詞の挿入、文体の統一に関して定量的な評価を行った。Transcriptions and recognition results of lecture speech include many expressions peculiar to spoken language. Thus, it is necessary to transform them into document style for practical use of them. We apply the statistical approach used by machine translation to automatic transformation of the spoken language into document style sentences. We deal with deletion of the fillers, insertion of periods, insertion of particles, conversion to written word expression and unification of a text style. To apply these processings in an integrated manner, we introduce a beam search. The preliminary evaluation of the proposed method is presented using real lecture transcriptions and their archives.
著者
原田 昌紀 風間 一洋 佐藤進也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.20, pp.45-52, 2001-03-05
被引用文献数
7

WWWの急速な普及に伴い,Webディレクトリの構築と維持に要するコストは増大しつつあり,登録や更新作業に大幅な遅延をもたらしている.そこで我々はハイパーリンクの参照共起関係に基づく関連Webページ発見アルゴリズムを用いて,Webディレクトリを自動的に拡大する手法を提案する.多数のカテゴリから成る実際のWebディレクトリに対して,4種類のアルゴリズムごとに提案する手法を適用し,その有効性とアルゴリズムによる差違を示す.With the rapid growth of the web, it is getting harder to build and maintain web directories and there are significant delays in registering or updating information. To meet the situation, we propose a new method to automatically expand a web directory using related web finding algorithms based on co-citation analysis of hyperlinks. We apply the proposed method with four algorithms respectively to a web directory in real use which consists of hundreds of categories to show effectiveness of the method and differences among the algorithms.
著者
伊東伸泰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.79, pp.37-44, 1993-09-16
被引用文献数
7

文字遷移確率モデルによる後処理は文節等が終了しなくとも処理が可能なため、辞書引き法と比較して実時間性の要求が大きいオンライン文字認識の後処理に適゛している。日本語では少数の表音文字(仮名)と数千個の表意文字(漢字)が併用される。このため日本語を遷移確率モデル(?gr)で記述しようとすると、漢字に対してはBigramですら相当量の記憶容量と学習用テキストを必要とし、かつ仮名に対しては(を大きくとらないと)十分な制約にならないというアンバランスが発生する。そこで文字遷移確率に品詞を属性として導入して、仮名に対してはより強い制約とすること、および漢字は品詞ごとのマクロ文字にグルーピング、縮退させることにより、このアンバランスを解消する手法を提案し、日本語のBigramを用いた効果的な文字認識後処理法を実現した。新聞約300万字を学習用テキストに用いた実験の結果、Perplexityが100以下になり、正解が候補内にある内の約半分が救済できることがわかった。This paper deals with a postprocessing method based on the n-gram approach for Japanese character recognition. In Japanese a small number of phonetic characters (Kana) and thousands of Kanji characters, which are ideographs, are used for describing ordinary sentences. In other words, Japanese sentences not only have a large character set, but also include characters with different entropies. It is therefore difficult to apply conventional methodologies based on n-grams to postprocessing in Japanese character recognition. In order to resolve the above two difficulties, we propose a method that uses parts of speech in the following ways. One is to reduce the number of Kanji characters by clustering them according to the parts of speech that each Kanji character is used in. Another is to increase the entropy of a Kana character by classifying it into more detailed subcategories with part-of-speech attributes. We applied a bigram approach based on these two techniques to a post-processing in online hand-written character recognition Our source text (learning data) included about 3 million characters from a Japanese national newspaper. Tests showed that our method reduced the perplexity of Japanese to less than 100 and resolved the imbalance between Kana and Kanji characters, and that it rectified about half of all substitution errors when the correct characters were among the candidates.
著者
舘野 昌一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.105-112, 2003-01-20
被引用文献数
3

テキストに含まれる感性表現を抽出する方法を提案する。具体的には、コーパスの中で感性表現を含む文をタグ付けし、これと同類の文を抽出する規則を自動生成する。そのために、文は、構文としてあいまい性がない範囲までを木構造としてあらかじめ自動生成しておき、その中に含まれる感性表現を、要素間の依存関係として人手によりタグ付けする。このようにして表現されたタグ組から、自動的に抽出規則を生成し、その規則に基づいて、コーパス内の感性表現を抽出する。このようにして作成された抽出規則は、再現率と適合率により評価されるが、各規則が抽出するノイズや、各規則間の包含関係によって、規則の良し悪しを評価する方法を示した。以上に基づき、実験と評価を行い、評価方法の有効性を示した。We propose the method to extract Textual "Kansei" (ability to feel something happens) expression. The method includes tagging to the sentences with the Kansei expression and generating the rules to extract similar sentences to the tagged ones. Each sentence in the corpus is parsed to generate a tree that is not ambiguous as the syntax for the sentence and Kansei expressions are tagged as the dependencies by hand. The extracting rules are generated from the tagged corpus automatically, then they extract Kansei expressions from another corpus. We also showed the method to improve the rules by counting noises produced by the rules and by clustering all the rules to evaluate the rules by recall and precision. The experiment, evaluation and improvement are also shown.
著者
森 信介
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.29, pp.27-32, 1997-03-21

本論文では,日本語にンける単語bi?gramモデルと品詞bi?gramモデルの補間を提案する.テストコーパスの解析に必要な未知語モデルも,文字bi?gramと文字種bi?gramの補間により得られるモデルで実現する.このモデルの有効性を確かめるため,形態素解析済みのコーパスを用いて単語bi?gramモデルと品詞bi?gramモデルとこれらを補間したモデルのテストセットバープレキシティを計算した.その結果,単語bi?gramモデルでは151.00であり,品詞bi?gramモデルでは383.61であり,これらを補間したモデルでは,143.49であった.単語bi?gramモデルと品詞bi?gramを補間したモデルは,単語bi?gramと同程度の記憶領域で実現できるので,このモデルは単語bi?gramモデルよりも良いモデルであると結論できる.In this paper, we present an interpolated model between a word bi-gram mode and a part-of-speech bi-gram model. We also present, as an unknown word model, an interpolated model between character bi-gram mode and character type bi-gram model. In order to attest an effectiveness experimentally, we calculated perplexities of the word bi-gram model and the part-of-speech bi-gram model and the interpolated model between them. The results of the word bi-gram was 151.00, the part-of-speech bi-gram model, 383.61 and the interpolated model, 143.49. Since the interpolated model needs as large memory space as the word bi-gram model, it follows that the interpolated model is better than the word bi-gram model.