著者
白川 真澄 中山 浩太郎 荒牧 英治 原 隆浩 西尾 章治郎
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.3, pp.525-539, 2011-03-01

固有名詞や専門用語,及びこれら概念間の関係を網羅した大規模オントロジーの構築は,意味中心のWebを実現する上で重要な基盤技術である.最近の研究では,Wikipediaにおける概念の網羅性を活用した大規模オントロジーの自動構築に注目が集まっているが,概念間の関係の網羅性が低いことが課題であった.そこで本研究では,Wikipediaマイニングによって抽出した情報にWeb全体の情報を組み合わせることで,概念及び概念間の関係の種類を網羅した大規模オントロジーの自動構築を目指す.本論文では,大規模オントロジーの自動構築の核となる関係抽出の手法として,Wikipediaから抽出した連想シソーラスを利用して関係の深い概念ペアを取り出し,Web検索によって概念間の関係を抽出する手法を提案する.また,固有名詞間の様々な関係を定義した大規模オントロジー構築への第一歩として,提案手法を用いて実際にオントロジー構築を試みる.
著者
白川 真澄 中山 浩太郎 原 隆浩 西尾 章治郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

文書をあらかじめ設定したカテゴリに分類するタスクは,情報検索の分野において重要な課題である.文書分類の一般的なアプローチとしてナイーブベイズが挙げられるが,教師データを用意するためのコストが問題であった.そこで本研究では,Wikipediaのカテゴリ構造を解析することで,ナイーブベイズに必要な教師データ,すなわち,ある語句が出現したときのカテゴリの事後確率を自動的に計算する手法を提案する.
著者
中山 浩太郎 伊藤 雅弘 Maike ERDMANN 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.549-557, 2009 (Released:2009-10-20)
参考文献数
25
被引用文献数
5 4 2

Wikipedia, a collaborative Wiki-based encyclopedia, has become a huge phenomenon among Internet users. It covers a huge number of concepts of various fields such as arts, geography, history, science, sports and games. As a corpus for knowledge extraction, Wikipedia's impressive characteristics are not limited to the scale, but also include the dense link structure, URL based word sense disambiguation, and brief anchor texts. Because of these characteristics, Wikipedia has become a promising corpus and a new frontier for research. In the past few years, a considerable number of researches have been conducted in various areas such as semantic relatedness measurement, bilingual dictionary construction, and ontology construction. Extracting machine understandable knowledge from Wikipedia to enhance the intelligence on computational systems is the main goal of "Wikipedia Mining," a project on CREP (Challenge for Realizing Early Profits) in JSAI. In this paper, we take a comprehensive, panoramic view of Wikipedia Mining research and the current status of our challenge. After that, we will discuss about the future vision of this challenge.
著者
中山 浩太郎 伊藤 雅弘 ERDMANN Maike 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.549-557, 2009
被引用文献数
3 4

Wikipedia, a collaborative Wiki-based encyclopedia, has become a huge phenomenon among Internet users. It covers a huge number of concepts of various fields such as arts, geography, history, science, sports and games. As a corpus for knowledge extraction, Wikipedia's impressive characteristics are not limited to the scale, but also include the dense link structure, URL based word sense disambiguation, and brief anchor texts. Because of these characteristics, Wikipedia has become a promising corpus and a new frontier for research. In the past few years, a considerable number of researches have been conducted in various areas such as semantic relatedness measurement, bilingual dictionary construction, and ontology construction. Extracting machine understandable knowledge from Wikipedia to enhance the intelligence on computational systems is the main goal of "Wikipedia Mining," a project on CREP (Challenge for Realizing Early Profits) in JSAI. In this paper, we take a comprehensive, panoramic view of Wikipedia Mining research and the current status of our challenge. After that, we will discuss about the future vision of this challenge.
著者
白川 真澄 中山 浩太郎 原 隆浩 西尾 章治郎
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.5, no.3, pp.51-63, 2012-09-28

語句をカテゴリ (トピック) に分類した概念辞書は,文書分類をはじめ様々なアプリケーションの基盤リソースとして必要とされている.代表的な概念辞書である WordNet は一般語を網羅的に定義しているが,固有名詞や専門用語,新語はあまり網羅されていない.一方,大規模 Web 百科事典である Wikipedia はそのような語句を数多く定義しており,また,語句を分類するためのカテゴリ構造を有している.しかし, Wikipedia のカテゴリ構造は,複数の親やループを許容するネットワーク構造であるため,ある語句がどのカテゴリに属しているかを判別するのは難しい.そこで本研究では,グラフ理論に基づいて Wikipedia のカテゴリネットワークを解析し,確率的に語句を分類する手法を提案する.また,語句の確率的分類の結果を教師データとし,ナイーブベイズによる文書分類を行う. Web 検索のスニペットを代表的な 8 カテゴリに分類するタスク,および科学に関するニュースのスニペットを 8 つの領域に分類するタスクにおいて評価を行い,提案手法の有効性を確認した.
著者
中山 浩太郎 伊藤 雅弘 Erdmann Maike 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.4, pp.49-60, 2009-12-24

Wikipediaは,インターネットを通じて誰でも編集可能なオンライン百科事典であり,ここ数年で爆発的に成長したソーシャルメディアの一種である.特に,自然言語,人工知能,データベースの研究分野で活発に研究が進められており,連想関係抽出や,対訳辞書構築,オントロジ構築など,数多くのWikipediaを対象とした研究が行われてきた.また,最近では多様なアプリケーションへWikipediaマイニングの成果を適用する事例が報告されており,その有用性が示されてきた.しかし,多量の研究発表が行われる一方で,全体像を把握することが困難になりつつあるのも事実である.本サーベイ論文では,これら最新のWikipedia研究を紹介しつつ,概観することで研究の目的面・技術面から分類し,Wikipedia研究の動向を探る.Wikipedia, an Wiki based online encycropedia, has become an emergent social media because of the significant effeciency for sharing huge amount of human knowledge via Web browsers. Especially, in NLP, AI and DB research areas, a considerable number of researches have been conducted in past several years. Relatedness measurement, bilingual dictionary extraction and ontology construction are ones of main Wikipedia Mining research areas. Furthermore, researches on application based on structured data extracted by Wikipedia Mining are becoming one of the essentials of Wikipedia research areas. In this survey paper, we introduce the new research papers and summarize the researches from both technical aspect and directional aspect.
著者
白川 真澄 中山 浩太郎 原 隆浩 西尾 章治郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2008, no.56, pp.89-96, 2008-06-12

分類辞書(タクソノミー)は,文書分類や情報検索などのアプリケーションにおいて幅広くその有用性が実証されてきた.しかし分類辞書の自動構築に関する従来研究では,自然言語処理の技術的限界やノイズデータに起因する精度低下の問題がある.そこで本稿では,大規模Web百科事典の Wikipedia に構築されたカテゴリ構造(ネットワーク)を用いて,概念をベクトル化する手法を提案する.The availability of the taxonomy, which is a kind of category-sorted dictionary, has been demonstrated by various applications such as document classification and information retrieval. However, existing works on automatic taxonomy construction have the problem of decreasing the accuracy due to the technical limitation of statistical NLP (Natural Language Processing) and noise data. In this work, we propose concept vectorization methods using the category network structured in Wikipedia, a large scale Web encyclopedia.