著者
江口 浩二 塩崎 仁博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2008, no.56, pp.73-80, 2008-06-12

最近,確率的トピックモデルに基づく情報検索手法が提案され,言語モデルの枠組みにおいて潜在的ディリクレ配分法(LDA)またはその変形を用いた実験で良好な結果が報告されている.しかしながら,アノテーション付き文書を検索するタスクに対しては,LDA に基づく手法ではアノテーションによって特定された属性型を直接利用することができない.本稿では,アノテーション付き文書コレクションのための新たなアドホック検索手法を提案する.提案手法は多重多型トピックモデルに基づく.これは,Wikipedia におけるエンティティ,カテゴリラベル,その他の語を典型とする,複数種の単語型を直接扱うことができる.この多重多型トピックモデルをアドホック検索に適用する方法を新たに提案し,Wikipedia を用いたエンティティ検索に関する実験によって提案手法の有効性を示す.Very recently, topic model-based retrieval methods have produced good results using Latent Dirichlet Allocation (LDA) model or its variants in language modeling framework. However, for the task of retrieving annotated documents, LDA-based methods cannot directly make use of multiple attribute types that are specified by the annotations. In this paper, we explore new retrieval methods using a 'multitype topic model' that can directly handle multiple word types, such as annotated entities, category labels and other words that are typically used in Wikipedia. We investigate how to effectively apply the multitype topic model to retrieve documents from an annotated collection, and show the effectiveness of our methods through experiments on entity ranking using a Wikipedia collection.
著者
中渡瀬 秀一 木本 晴夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1995, no.87, pp.41-48, 1995-09-14
被引用文献数
16

本論文では字面処理によって,テキストから重要語(キーワード)を自動抽出する方法について述べる.日本語の場合まず文章から単語を得るために,形態素解析が必要であるが,形態素解析には未知語や曖昧性の解消などの問題があり,これを解決するために,従来は複雑な規則や人間がメンテナンスしなければならない辞書が必要であった.本手法はNグラムの頻度情報を用いた完全な字面処理になっている.その手順では()まずNグラム頻度情報を使って重要な文字列を抽出し,()次にその中から無意味な文字列を排除する.実験ではこの手法が未知語や複合語の範囲を正しく識別し,抽出精度を向上させることを確認した.This paper describes a new method to extract free keywords automatically from a Japanese text. Morphological analysis is necessary to recognize words from a text for extraction of keywords. There exist, however, problems of unknown words recognition and ambiguity of compound words recognition, so dictionaries and complex heuristics are necessary to resolve them. Our method is based on the n-gram method and consists of 2 steps: (1) Evaluation of major strings using the n-gram statistics, and (2) Exclusion of nonsense strings. It was found that our method extracts keywords that is unknown word more precisely than conventional methods.
著者
成澤和志 山田 泰寛 池田 大輔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.59, pp.45-52, 2006-05-30

プログの増加が著しい近年、プログスパムが大きな問題であり、スパム検出の技術の発達が求められている。スパム検出に関する研究は内容解析やリンク解析によるものが多く、複雑な処理やアルゴリズムを使用する。我々はプログスパムの内容ではなく、コピーされ大凰に生成される性質に着目した手法を提案する。テキストの部分文字列を数え上げた時、出現頻度と異なり数にはジップの法則が成り立つことを利用して、自然言語の知識を必要としない、高速なスパム検出の技術を得ることができる。また、我々は人エ的なデータによる本手法の正当性を調ぺ、実際のプログデータから本手法によりプログスパムを検出することに成功した。Blog spam detection is a key for the blog spam problems as the number of blog sites is extermery in creasing.Existing methods for blog spam detection are based on contexts o rlinkstructures analysis,and does not work well completely.We suggest a method utilizing thefact that spamsaremassproducedatalowcostinsteadoftheircontext・Ourmethoddoesnot need backgroundknowledge of blog entries,such as naturallanguages,because of usingZipf's law for the frequency and the vocabulary size of substrings.We present the validity of our method by artificial data set,and succeed to detect blog spamsftomactualblogentries.
著者
高木 徹 木谷強 関根 道隆 出口 信吾
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1997, no.86, pp.89-94, 1997-09-11
参考文献数
8
被引用文献数
3

ユーザの検索作業を支援する観点から、全文検索の検索結果に対して重要度 (スコア) を付与する研究が実施されている。一方、シソーラスは重要な概念を表わす語で構成されており、一般的に文書の主題を表わす語が多く含まれている。そこで本論文では、検索語がシソーラスに掲載されている語である場合、その語が出現する文書の重要度を変更する方法を提案する。日本語新聞記事のテストコレクションBMIR?J1と日経シソーラスを使用し、シソーラス掲載情報を利用する場合と利用しない場合の検索精度を比較した。検索文字列とシソーラス掲載語の文字列の一致度合、および検索文字列が含まれるシソーラス掲載語のカテゴリ頻度をパラメータとして文書の重要度を変化させた結果、再現率が5%向上することを確認した。To facilitate users' retrieval work, it is necessary to rank documents according to their relevance. A thesaurus is composed of words which can be main subjects of the documents. This paper describes a relevance ranking method that utilizes importance of query words appearing in the thesaurus. The traditional frequency-based method alone and combined method are compared using the Nikkei thesaurus and a test collection of Japanese newspaper articles called BMIR-J1. Experimental results show that the proposed method, using the thesaurus-term frequency and the degree of string matching between the query and thesaurus word, improves retrieval recall by 5%.
著者
小林 優 吉高 淳夫 平川 正人
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2002, no.28(2001-FI-066), pp.135-142, 2002-03-15

本論文では、利用者の分類に対する意図をクラスタリング結果に反映させ、かつ、文書クラスタリングを効率よく行うために、適切なクラスタ代表を求める手法を提案する。本手法では、利用者の分類例示に基づいて形成されるクラスタの主題を表す特徴要素を多く含む文書をサンプルとして選出し、そのサンプルをクラスタに追加することで、クラスタ代表の算出を行う。ここで、追加されたサンプルによっては、適切なクラスタ代表を求めることができない場合があるため、サンプルの追加と除去、クラスタ代表の算出を繰り返し行うことによって、クラスタ代表を洗練する。
著者
熊本 忠彦 伊藤 昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1997, no.86, pp.31-36, 1997-09-11
参考文献数
10

近年,話し言葉を対象とする自然言語処理の分野において対話コーパスを利用した研究が盛んに行われている.しかしながら,従来利用されている対話データは,模擬的な実験環境において収集された対話 (模擬対話) であり,実際の状況下で得られるであろう対話 (実対話) と言語的・対話的性質が同じであるとは限らない.そこで,我々は,模擬対話と実対話の定性的,定量的な共通点/相違点を明らかにするための材料として,2つの対話領域において模擬対話と実対話をそれぞれ収集した.本稿では模擬対話と実対話を規定する要因について考察し,実対話を収集するための実験環境を設計する.また,この設計に基づいて実際に行った実対話収集実験についても述べる.In recent years various kinds of dialogue corpora have been constructed and used for studies on dialogue and spoken language. In conventional dialogue collection, however, systematically collecting a large amount of dialogues and constructing a very large corpus are considered critically important, while the spontaneity of the dialogues collected is not a point to be carefully considered. "Spontaneous dialogue" does not mean that the dialogue itself is spontaneous but means that an utterance in the dialogue is spontaneous. However, it is obvious that the spontaneity of a dialogue determines the structure and aspect of the dialogue. Therefore, in this article, we consider the spontaneity of a dialogue and propose a method for collecting spontaneous dialogues in an experimental environment. We also describe the two kinds of experiments which we actually conducted for collecting spontaneous dialogues.
著者
山田 洋志 福島 俊一 松田 勝志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.29, pp.143-150, 2000-03-21
参考文献数
4
被引用文献数
6

ユーザの目的に応じた情報検索・情報提供を実現するために,ページタイプ分類を利用した情報抽出・分類方式を提案し,試作システムで精度を評価した.本方式では,ページタイプ分類を使用することで,それぞれのページタイプに適した抽出・分類処理を行える.そのため,多くの種類の文書が混在するWebページに対しても必要な情報だけを高い精度で抽出することができる.また,分類結果を表や図を用いてユーザに提示することで特定の目的に応じた情報を提供するサービスを実現できる.試作システムによる求人情報とイベント情報の抽出精度の評価では,記述が比較的一定している勤務地や開催日時などの情報で適合率90%以上を達成した.記述の自由度が高い,求人の応募資格やイベント名では65?75%にとどまっている.検索誤りの主な原因は,情報を判別するキーワードのミスマッチと,表や箇条書きの前後からの抽出の誤りであった.抽出もれの原因としては,表や箇条書きのパターンや情報判別用のキーワードのの不足が主なものであった.This paper describes a novel information extraction method which realizes task oriented information retrieval. This method uses page-type classification method which judges type of Web pages. Introducing the page-type concept, extraction systems can select appropriate algorithm or rules for the target page-type. Hence, extraction performances will be increased. This paper also demonstrates accuracy of extraction. Extraction precisions of work place at help-wanted advertisement and date at event information are 90% and over, since these information are relatively set. Precisions of requirement at help-wanted advertisement and event name at event information are unfortunately between 65% and 75%, because there are many description styles of these information. The causes of the extraction errors is mismatches of keywords and extracting errors from table captions. The extraction omissions are caused by lack of pattern, namely, table, article, keyword and so on.
著者
仲尾 由雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.91, pp.23-30, 2000-09-27
参考文献数
11

関連文書の組から、関連箇所を自動的に抽出する手法を提案する。語彙的結束性に基づき認定した話題階層を利用して、様々な粒度の話題を単位に、文書の部分間の関連度を計算し、話題の粒度に応じた関連度をもつ関連箇所の対を抽出する手法である。本手法を、国会における代表質問と答弁を対象に実験を行った結果、抽出された関連箇所の組の約8割は正しく同一の話題に対応し、また、新聞に要旨として掲載された内容の約6割は、この手法で自動的に抽出可能であることがわかった。これにより、完全に対応する文書であれば、話題階層に基づき関連話題を絞り込むことで、予め特別な閾値を設定することなく、効率的に様々な粒度の話題に対する関連箇所が検出できる見込みが得られた。This paper presents an algorithm for discovering related passages among related documents. For the documents to be compared, the algorithm first detects their thematic hierarchies individually based on lexical cohesion measured by term repetitions. Then, it compares a pair of thematic hierarchies in terms of various grading topics, and selects closely-related pairs of thematic units across them. An experiment using proceedings of interpellations in the National Diet shows the precision rates of related topic selection are estimated to be about 80 percent and the recall rates for major related passages corresponding to manual summaries of these proceedings are estimated to be about 60 percent.
著者
藤井 敦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.56, pp.9-15, 2008-06-12
被引用文献数
1

日本では年間約 40 万件の特許が出願され,多様な専門分野に関する知識が蓄積されている.特許情報に内在する人間の英知を体系化し,活用することができれば,学術や産業において価値がある.特許情報には高度な技術に関する新語や専門用語が多く含まれており,World Wide Web では見つけることができない専門用語も含まれている.本研究は,15 年分の日本公開特許公報テキストから約 190 万語の見出し語を含む用語辞典的なコンテンツを自動構築した.さらに,当コンテンツを検索するためのシステムを開発した.本システムは,見出し語の説明を検索することが可能である.また,関連語,同義語,自然言語文,関連語グラフによって,用語情報を多面的に調査することが可能である.In Japan, approximately 400,000 patent applications are submitted every year, which contain knowledge related to various technical fields. Organizing and utilizing human intelligence latent in patent information are valuable from scientific and industrial points of view. Patent information contains new words and technical terms associated with high-technology, and a number of these terms cannot be found on the World Wide Web. We produced an encyclopedic dictionary content from 15 years of Japanese unexamined patent applications, in which approximately 1.9 million headwords are indexed. We also implemented a search system to utilize this content. Users can search for descriptions of a technical term. Users can also research technical terms by submitting, related terms, synonyms, and natural language questions and viewing related-term maps.
著者
木村 洋章 渡辺 俊典 古賀 久志 張諾
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.94, pp.65-70, 2006-09-12
参考文献数
11

著者らは情報の圧縮性に着目した新たなマルチメディアデータ解析手法の研究を進めている.PRDC(Pattern Representation Scheme using Data Compression)[1]と呼ぶこの新概念の中では,二つのデータX,Yの類似度を,それらを圧縮辞書D1,D2,…,Dnで圧縮した時の圧縮率ベクトルの類似度で判断する.本論文ではPRDCを用いた新文書検索システムの可能性を探る.部分的ではあるが,文書分類,公知/特異句抽出,文書要約,など将来の高自立・適応文書検索システムの実現に重要な機能を実現できる可能性を提示する.キーワード 文書解析,情報検索,要約,新句抽出,データ圧縮We have been studying a new multimedia data analysis scheme based on the concept of compressibility. In this new concept of PRDC(Pattern Representation Scheme using Data Compression)[1], we consider two data, let them X and Y, are similar if their compressibility vectors under a set of compression dictionaries D1, D2, ..., Dn are similar. Here we investigate the possibility of new document retrieval system using the PRDC. We prove that PRDC has possibilities to solve several fundamental problems including, document classification, common/distinguished phrase extraction, and summary, that should be realized in the future highly autonomous and adaptive document retrieval systems.Key words Document analysis, Retrieval, Summarization, New phrase detection, Data compression
著者
石川 大介 宇陀 則彦 石塚 英弘
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2002, no.101(2002-FI-069), pp.39-44, 2002-11-06

機械可読な大規模な学術論文の情報として、NII-NACSISコレクションがある。これを用いて、論文の標題におけるキーワードの使われ方を調べ、その中の特定の構文パターンに注目して、用語間の意味関係の抽出を試みた。本研究では、品詞情報を必要としない手法を使い、三つ以上の用語間の意味関係を記述する構文パターンについて実験した。その結果、単純な意味関係を明確に記述する構文パターンを利用することにより、意味関係を抽出できることを見い出した。
著者
石塚 英弘 伊藤卓 竹内 敬人 千原 秀昭 中野 英彦 眞野 倖一 吉村 忠与志 中西 敦男 田中 洋一
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1994, no.95, pp.1-8, 1994-11-09

93年1月号からSGML方式全文DBによる電子出版になった日本化学会欧文誌の電子投稿の研究である。94年4月、日本化学会は広く使用されているワープロソフトMS Wordのスタイルシート機能を使った電子投稿の実験を開始した。この手法は、)投稿者にSGMLを意識させない、)交換フォーマットであるRTF(ch Text Form)を使用するため、プログラムでSGML方式全文DBに変換できる、)他のワープロソフト、WordPerfect,PageMakerでも投稿可能、などの長所を持つ。This paper reports a method of electronic contribution by an author to "Bulletin of the Chemical Society of Japan", that has been published with a SGML-based system since January 1993. Chemical Society of Japan started an experiment of electronic contribution using a style sheet function and RTF (Rich Text Format: an exchange format) of Microsoft Word, which is one of the most popular word-processing software. This method has the following features; (1) an author need not know SGML; (2) contributed file in RTF can be converted to SGML-based full-text database by a program; (3) the method can be used in other word processing software: WordPerfect or PageMaker.
著者
池田 諭史 大橋 一輝 山本 和英
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.93, pp.161-168, 2004-09-17
被引用文献数
1

新幹線の電光掲示板で使用されるニュース記事は冗長度の少ない高密度表現となっている。また、体言や格助詞で終るといった独特の文末表現をしている。そこで本稿ではこのような高密度文の文末に着目し文末が体言や格助詞で終る形に整形することによる要約を試みた。整形はパターンマッチを用いて行ない、結果として文末の要約率は52%であり1 文当たり2.50文字の削除ができた。また、人が判断した正解率は95%であった。The electrical bulletin board news consists of high density expressions. The end of the sentence is unique shape that is nouns or case particles. This paper focuses on expressions of the sentence end, and attempt to summarize them by forming them into nouns or case particles. We summarize the news sentence by pattern matching approach. Our evaluation illustrates that our summarizer reduces 2.50 characters on average; the summarization ratio of sentence ends is 52%. We also show that the correctness of reduction is 95%.
著者
両角 彩子 永森 光晴 杉本 重雄
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2008, no.105(2008-FI-092), pp.1-14, 2008-10-30

近年の情報技術の発展に伴い、マンガ作品の情報の共有・交換が盛んに行われるようになった。筆者らの研究室では、マンガに関する情報を統合的に扱うためのマンガメタデータスキーマを開発している。その一部に、読者が作品の内容を書き表すためのメタデータスキーマがある。本稿はマンガの知的内容を表すことを目的としているため、同心ストーリーの表現手法である小説や映画も参考にする。そこで、 Wikipedia 内に表れるマンガ麹小説の作品記事から 100 件をそれぞれ無作為に抽出し、記述項目について調査した。これらの調査結果および目次テンプレートを参考に、読者が作品の知的内容を書き表すためのメタデータ基本セットを提案する。
著者
両角 彩子 杉本 重雄
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2005, no.108(2005-FI-081), pp.7-18, 2005-11-02

利用者の特性に関わらずリソースを簡単に探し出し、利用できること、すなわちリソースへのアクセシビリティを高めることへの要求が、リソースやリソースの利用方法・利用目的の多様化によって高まっている。たとえ内容が同一であるとみなすことのできるリソースであっても、利用者の特性に応じた方法で表現され、また、利用環境に応じた形式で実現されたリソースを、利用者が簡単に選択し、提供することが求められる。この要求を満たすためには、「どのような特性を持つ利用者」が「どのような環境」で「どのようなリソース」を利用したいのかという利用者の要求を表現した上で、利用者の要求とそれにマッチするリソースを選択し、適切なリンクを提供する仕組みが必要である。そこで、利用者が簡単に自らの特性や利用環境に適したリソースへアクセスできるようにすることを目的として、本稿では、アクセシビリティのためのメタデータ、IFLAによるFunctional Requirements for Bibliographic Records (FRBR)、OpenURLの動的なリンキング機能等に基づいて、利用者の特性や環境と、リソースという双方の視点からアクセシビリティに関する情報を表現し、適切に利用者とリソースを結びつけるメタデータスキーマのモデルを提案する。
著者
岩山 真 藤井 敦 高野 明彦 神門 典子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.74, pp.49-56, 2001-07-24
参考文献数
1
被引用文献数
12 6

NTCIR-3において特許コーパスを用いた検索タスクを提案する。提案するタスクでは、「公開特許公報」「JAPIO妙録」「PAJ(Patent Abstracts of Japan)」などの特許コーパスを用い、「基本検索タスク」「自由タスク」の二種類のタスクを実施する。基本検索タスクは、ある製品に関する一般的な記述からそれを支える特許を検索するタスクであり、具体的には新聞記事から関連特許を検索する。自由タスクは、特許コーパスを対象に、参加者が自由に課題を設定し評価する実験的なタスクである。In NTCIR-3 workshop, we propose a new task of "Patent Retrieval Challenge" using patent corpora. The main task is "cross DB search" whose purpose is to find a set of patent documents relevant to a news paper article described on some products. We will also try an experimental task, in which participants themselves can propose, execute and evaluate their own tasks. This free-styled task intends to explore future directions of patent information processing.
著者
宝珍輝尚 中田 充 都司 達夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1998, no.60, pp.33-40, 1998-07-17
参考文献数
16

サイエンティフィックデータベース管理システムDREAMでは,集合を用いてデータを表現している.また,データベースの構造を記述しデータベースへの更新に従って変化するシェイプも一種の集合に基づいている.これまでに,DREAMのデータベースの要素ならびにシェイプを共通的に表現することを目的として,名前付き集合モデルを提案し,そのためのライブラリを実現してきた.本論文では,この名前付き集合モデルのためのライブラリを用いてデータベースの要素ならびにシェイプを実現した結果について報告する.データベースの要素ならびにシェイプのためのクラスを名前付き集合クラスのサブクラスとし,その構造とメソッドを利用することにより,実現が容易であることを示す.The scientific database management system called DREAM manages data by using sets. Shape, which is the information describing a database, and is changed according to the database updates, is also based on a set. The Named Set Model has been proposed to represent both kinds of database elements and shape in DREAM. The software library for this data model has been constructed. This paper describes the implementation of database elements and shape through this software library. The classes of database elements and shape are implemented as the subclasses of the class Named_-set. Using the structure and the methods of named sets enables us to implement database elements and shape easily.
著者
安藤まや 関根 聡 石崎 俊
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.98, pp.77-82, 2003-09-29
参考文献数
6
被引用文献数
7

高度な自然言語処理を行なう際には、構文情報のみならずさまざまな語と語の関連情報が重要となってくる。我々は「トマトなどの野菜」といった定型表現を用いて、新聞記事から、名詞の下位概念を自動的に抽出する手法を提案する。7種の定型表現を作成し、6年分の新聞記事をコーパスとして下位概念を抽出した。その結果、ほぼ6割以上の正解率で下位概念が得られた。また、抽出した下位概念と、人間が連想した下位概念との比較をおこない、2人以上の被験者が連想した下位概念のうち、平均85%の下位概念をコーパスから自動抽出することができた。Not only syntactic information but also semantic relationships between words are important in advanced natural language processing. We describe a method to automatically extract hyponyms from newspaper. First, we discover patterns which can extract hyponyms of a noun, such as "A nado-no B (B such as A)", then we apply the patterns to the newspaper corpus to extract instances. The precision is 60-90 percent depending on the patterns. We compare the extracted hyponyms and those associated by human. 85 percent of the words associated by more than 1 person are extracted automatically.
著者
西尾 信彦
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1989, no.47(1989-FI-013), pp.1-8, 1989-06-02

ハイパーテキストシステムをそれが基盤とするデータモデルに沿って研究することの意義について述べる.その例としてマルチユーザ/ネットワーク対応のハイパーテキストデータベースサーバのデータモデルであるHAM アイディアプロセッサ構築のために設計されたホルダネットワーク,TRONプロジェクトのBTRONで採用された統一的操作モデルである実身/仮身モデルの3つのハイパーテキストデータモデルを[1]で提出された次世代ハイパーテキストシステムが解決すべき7つの問題に即して比較/考察する.
著者
白川 真澄 中山 浩太郎 原 隆浩 西尾 章治郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2008, no.56, pp.89-96, 2008-06-12

分類辞書(タクソノミー)は,文書分類や情報検索などのアプリケーションにおいて幅広くその有用性が実証されてきた.しかし分類辞書の自動構築に関する従来研究では,自然言語処理の技術的限界やノイズデータに起因する精度低下の問題がある.そこで本稿では,大規模Web百科事典の Wikipedia に構築されたカテゴリ構造(ネットワーク)を用いて,概念をベクトル化する手法を提案する.The availability of the taxonomy, which is a kind of category-sorted dictionary, has been demonstrated by various applications such as document classification and information retrieval. However, existing works on automatic taxonomy construction have the problem of decreasing the accuracy due to the technical limitation of statistical NLP (Natural Language Processing) and noise data. In this work, we propose concept vectorization methods using the category network structured in Wikipedia, a large scale Web encyclopedia.