著者
伊藤 雅弘 中山 浩太郎 原 隆浩 西尾 章治郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.20, pp.39-49, 2007-12-15
被引用文献数
2

近年,知識処理の有用なコーパスとして,ユーザ同士が協調してコンテンツを編集するWeb事典である「Wikipedia」に多大な注目が集まっている.筆者らはこれまでの研究において,Wikipediaに対してリンク構造を解析することで精度の良いシソーラス辞書が構築できることを示してきた.しかし,膨大な記事数を持つWikipediaを解析するためには,高い精度を保ったままスケーラビリティのさらなる向上が技術的な課題であった.そこで,本研究ではリンクの共起性解析に着目し,スケーラビリティの高いシソーラス辞書構築手法を提案する.提案手法の性能評価のために行った実験の結果,共起性解析を用いた手法は従来手法よりも少ない計算時間で,高精度なシソーラス辞書を構築できることを確認した.さらに,共起性解析とtfidfを融合させることによって,より高い精度が実現できることを確認した.Wikipedia, a huge scale Web based encyclopedia, attracts great attention as a valuable corpus for knowledge extraction. We have already proved how effective it is to construct a Web thesaurus. However, we still need high scalability methods to analyze the huge amount of Web pages and hyper links among articles in the encyclopedias. In this paper, we propose a scalable Web thesaurus construction method from Wikipedia by using link co-occurrence. Experimental results show that the proposed method based on link co-occurrence analysis was better on scalability and accuracy than previous methods. Moreover, the method combining tfidf with link co-occurrence analysis brought higher precision.
著者
中山 浩太郎 伊藤 雅弘 Maike ERDMANN 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.549-557, 2009 (Released:2009-10-20)
参考文献数
25
被引用文献数
5 4 2

Wikipedia, a collaborative Wiki-based encyclopedia, has become a huge phenomenon among Internet users. It covers a huge number of concepts of various fields such as arts, geography, history, science, sports and games. As a corpus for knowledge extraction, Wikipedia's impressive characteristics are not limited to the scale, but also include the dense link structure, URL based word sense disambiguation, and brief anchor texts. Because of these characteristics, Wikipedia has become a promising corpus and a new frontier for research. In the past few years, a considerable number of researches have been conducted in various areas such as semantic relatedness measurement, bilingual dictionary construction, and ontology construction. Extracting machine understandable knowledge from Wikipedia to enhance the intelligence on computational systems is the main goal of "Wikipedia Mining," a project on CREP (Challenge for Realizing Early Profits) in JSAI. In this paper, we take a comprehensive, panoramic view of Wikipedia Mining research and the current status of our challenge. After that, we will discuss about the future vision of this challenge.
著者
中山 浩太郎 伊藤 雅弘 ERDMANN Maike 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.549-557, 2009
被引用文献数
3 4

Wikipedia, a collaborative Wiki-based encyclopedia, has become a huge phenomenon among Internet users. It covers a huge number of concepts of various fields such as arts, geography, history, science, sports and games. As a corpus for knowledge extraction, Wikipedia's impressive characteristics are not limited to the scale, but also include the dense link structure, URL based word sense disambiguation, and brief anchor texts. Because of these characteristics, Wikipedia has become a promising corpus and a new frontier for research. In the past few years, a considerable number of researches have been conducted in various areas such as semantic relatedness measurement, bilingual dictionary construction, and ontology construction. Extracting machine understandable knowledge from Wikipedia to enhance the intelligence on computational systems is the main goal of "Wikipedia Mining," a project on CREP (Challenge for Realizing Early Profits) in JSAI. In this paper, we take a comprehensive, panoramic view of Wikipedia Mining research and the current status of our challenge. After that, we will discuss about the future vision of this challenge.
著者
中山 浩太郎 伊藤 雅弘 Erdmann Maike 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.4, pp.49-60, 2009-12-24

Wikipediaは,インターネットを通じて誰でも編集可能なオンライン百科事典であり,ここ数年で爆発的に成長したソーシャルメディアの一種である.特に,自然言語,人工知能,データベースの研究分野で活発に研究が進められており,連想関係抽出や,対訳辞書構築,オントロジ構築など,数多くのWikipediaを対象とした研究が行われてきた.また,最近では多様なアプリケーションへWikipediaマイニングの成果を適用する事例が報告されており,その有用性が示されてきた.しかし,多量の研究発表が行われる一方で,全体像を把握することが困難になりつつあるのも事実である.本サーベイ論文では,これら最新のWikipedia研究を紹介しつつ,概観することで研究の目的面・技術面から分類し,Wikipedia研究の動向を探る.Wikipedia, an Wiki based online encycropedia, has become an emergent social media because of the significant effeciency for sharing huge amount of human knowledge via Web browsers. Especially, in NLP, AI and DB research areas, a considerable number of researches have been conducted in past several years. Relatedness measurement, bilingual dictionary extraction and ontology construction are ones of main Wikipedia Mining research areas. Furthermore, researches on application based on structured data extracted by Wikipedia Mining are becoming one of the essentials of Wikipedia research areas. In this survey paper, we introduce the new research papers and summarize the researches from both technical aspect and directional aspect.
著者
伊藤 雅弘 中山 浩太郎 原 隆浩 西尾 章治郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.24, 2010

近年,Wikipediaが知識抽出のためのコーパスとして注目を集めている.一方で,記事によっては誤った記述や虚偽の記述がなされており,記事の信頼性が問題となっている.そこでWikipediaのコンテンツの信頼性向上が必要とされている.本研究では,Wikipediaの記述の言語解析とWeb検索エンジンによってWeb上の情報を用いることで,Wikipediaの記述の信頼性を評価する手法を検討する.