著者
中山 浩太郎 原 隆浩 西尾 章治郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.10, pp.2917-2928, 2006-10-15
参考文献数
18
被引用文献数
14

シソーラス辞書は,情報検索や自然言語処理,対話エージェントなどの研究領域において幅広くその有用性が実証されてきた.しかし,自然言語処理などによる従来のシソーラス辞書自動構築では,形態素解析や同義語・多義語の処理など,語の関連性を解析する前段階の処理において精度低下を招く要因がいくつかある.また,辞書作成時と利用時のタイムラグにより最新の語や概念への対応が困難であるという問題もある.そこで本論文では,これら2 つの問題を解決するために,ここ数年で急速にコンテンツ量を増加させたWiki ベースの百科辞典である「Wikipedia」に対し,Web マイニングの手法を適用することでシソーラス辞書を自動構築する方法を提案する.Thesauri have been widely used in many applications such as information retrieval, natural language processing (NLP), and interactive agents. However, several problems, such as morphological analysis, treatment of synonymous and multisense words, still remain and degrade accuracy on traditional NLP-based thesaurus construction methods. In addition, adding latest/miner words is also a difficult issue on this research area. In this paper, to solve these problems, we propose a web mining method to automatically construct a thesaurus by extracting relations between words from Wikipedia, a wiki-based huge encyclopedia on WWW.
著者
中山 浩太郎 岩澤 有祐 黒滝 紘生 松尾 豊
雑誌
情報処理
巻号頁・発行日
vol.56, no.11, pp.1102-1109, 2015-10-15

Deep Learningが人工知能研究のブレークスルーとして研究者の注目を集め始めてから久しく,Google,Face-book,Baiduなどが積極的に研究開発に参加,DeepMindなどの強烈なインパクトを持った研究が行われるなど,発展著しい研究領域となった.これに伴い,ここ数年でTorch,Caffe,Pylearn2/Theanoなどの実装が急速に整備され,これらのライブラリを利用した研究も盛んに行われている.本稿では,Deep Learningの概要と,2015年における研究・開発の状況を主に実装面から俯瞰する.また,筆者らが開発しているGPUを利用した高速・高機能のSdA 実装「GeSdA」も紹介する.これからDeep Learningに関する研究を始める研究者や,利用を考えている読者の一助になれば幸いである.
著者
白川 真澄 中山 浩太郎 荒牧 英治 原 隆浩 西尾 章治郎
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.3, pp.525-539, 2011-03-01

固有名詞や専門用語,及びこれら概念間の関係を網羅した大規模オントロジーの構築は,意味中心のWebを実現する上で重要な基盤技術である.最近の研究では,Wikipediaにおける概念の網羅性を活用した大規模オントロジーの自動構築に注目が集まっているが,概念間の関係の網羅性が低いことが課題であった.そこで本研究では,Wikipediaマイニングによって抽出した情報にWeb全体の情報を組み合わせることで,概念及び概念間の関係の種類を網羅した大規模オントロジーの自動構築を目指す.本論文では,大規模オントロジーの自動構築の核となる関係抽出の手法として,Wikipediaから抽出した連想シソーラスを利用して関係の深い概念ペアを取り出し,Web検索によって概念間の関係を抽出する手法を提案する.また,固有名詞間の様々な関係を定義した大規模オントロジー構築への第一歩として,提案手法を用いて実際にオントロジー構築を試みる.
著者
伊藤 雅弘 中山 浩太郎 原 隆浩 西尾 章治郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.20, pp.39-49, 2007-12-15
被引用文献数
2

近年,知識処理の有用なコーパスとして,ユーザ同士が協調してコンテンツを編集するWeb事典である「Wikipedia」に多大な注目が集まっている.筆者らはこれまでの研究において,Wikipediaに対してリンク構造を解析することで精度の良いシソーラス辞書が構築できることを示してきた.しかし,膨大な記事数を持つWikipediaを解析するためには,高い精度を保ったままスケーラビリティのさらなる向上が技術的な課題であった.そこで,本研究ではリンクの共起性解析に着目し,スケーラビリティの高いシソーラス辞書構築手法を提案する.提案手法の性能評価のために行った実験の結果,共起性解析を用いた手法は従来手法よりも少ない計算時間で,高精度なシソーラス辞書を構築できることを確認した.さらに,共起性解析とtfidfを融合させることによって,より高い精度が実現できることを確認した.Wikipedia, a huge scale Web based encyclopedia, attracts great attention as a valuable corpus for knowledge extraction. We have already proved how effective it is to construct a Web thesaurus. However, we still need high scalability methods to analyze the huge amount of Web pages and hyper links among articles in the encyclopedias. In this paper, we propose a scalable Web thesaurus construction method from Wikipedia by using link co-occurrence. Experimental results show that the proposed method based on link co-occurrence analysis was better on scalability and accuracy than previous methods. Moreover, the method combining tfidf with link co-occurrence analysis brought higher precision.
著者
白川 真澄 中山 浩太郎 原 隆浩 西尾 章治郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

文書をあらかじめ設定したカテゴリに分類するタスクは,情報検索の分野において重要な課題である.文書分類の一般的なアプローチとしてナイーブベイズが挙げられるが,教師データを用意するためのコストが問題であった.そこで本研究では,Wikipediaのカテゴリ構造を解析することで,ナイーブベイズに必要な教師データ,すなわち,ある語句が出現したときのカテゴリの事後確率を自動的に計算する手法を提案する.
著者
中山 浩太郎 原 隆浩 西尾 章治郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告デジタルドキュメント(DD) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.128, pp.115-122, 2006-11-30
被引用文献数
1

Wikipediaは,WWW上に構築された百科事典であり,誰もが簡単にWebブラウザを通じて編集可能であるために,膨大な数の記事が投稿,公開されている.しかし,2005年末から2006年初頭にかけて,虚偽の記事が投稿されるような事件が発端となり,コンテンツの信頼性が大きな問題となってきた.筆者らは,これまでの研究でWikipediaにおける記事同士の関係性を抽出する手法について提案し,その有効性を証明してきたが,このように不特定多数のユーザがコンテンツを管理するような環境においては,信頼性を考慮した解析手法が重要となる.本研究では,Wikipediaのダイナミクスと信頼性の問題を分析するとともに,リンク構造解析アルゴリズムについて検討し,記事関連性抽出における信頼性の高い情報抽出方法を模索する.Wikipedia is a Web-based dictionary that can easily be edited through Web browsers by any Internet user. Thus huge amounts of articles are published and managed on it. However, after a number of article reliability issues, the trust problem on Wikipedia is still in controversy. In previous works, we proved the effectiveness and potential of the article association extraction based on Wikipedia mining. In this paper, we first analyze the link structure of Wikipedia and dynamics of Wikipedia. Then, we present an effective method for link structure mining for Wikipedia and describe how link structure mining for Wikipedia is helpful for extracting trusted information.
著者
中山 浩太郎 小板 隆浩 今井 祐介
雑誌
情報処理
巻号頁・発行日
vol.53, no.1, pp.46-54, 2011-12-15
著者
中山 浩太郎 伊藤 雅弘 Maike ERDMANN 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.549-557, 2009 (Released:2009-10-20)
参考文献数
25
被引用文献数
5 4 2

Wikipedia, a collaborative Wiki-based encyclopedia, has become a huge phenomenon among Internet users. It covers a huge number of concepts of various fields such as arts, geography, history, science, sports and games. As a corpus for knowledge extraction, Wikipedia's impressive characteristics are not limited to the scale, but also include the dense link structure, URL based word sense disambiguation, and brief anchor texts. Because of these characteristics, Wikipedia has become a promising corpus and a new frontier for research. In the past few years, a considerable number of researches have been conducted in various areas such as semantic relatedness measurement, bilingual dictionary construction, and ontology construction. Extracting machine understandable knowledge from Wikipedia to enhance the intelligence on computational systems is the main goal of "Wikipedia Mining," a project on CREP (Challenge for Realizing Early Profits) in JSAI. In this paper, we take a comprehensive, panoramic view of Wikipedia Mining research and the current status of our challenge. After that, we will discuss about the future vision of this challenge.
著者
作花 健也 中山 浩太郎 木村 仁星 井上 大輝 山口 亮平 河添 悦昌 大江 和彦 松尾 豊
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.2N3J1302, 2019 (Released:2019-06-01)

医療画像は診断や治療に幅広く利用されているが,読影には高い専門性が必要である.胸部X線写真は患者の状況や重要な情報を把握するための方法として最も普及している方法の一つであり,緊急医療や健康診断など様々な場面で日々大量の撮影が行われている.この結果,専門家へ大きな負担が発生しており,その解決が求められていた.そのため近年,医療画像から自動で所見を生成する研究が行われている.しかしながら,所見には表記方法の揺らぎがあるためクラス分類問題として解くことが困難である. 本稿では,胸部X線写真から表記方法の揺らぎにも対応可能な文字単位での所見生成の手法を提案した.加えて,アテンション機構を用いることで結果の解釈性を高めた.結果として,位置情報を反映した所見生成ができていることを確認し,文字単位での所見生成の有用性を示した.
著者
中山 浩太郎 伊藤 雅弘 ERDMANN Maike 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.6, pp.549-557, 2009
被引用文献数
3 4

Wikipedia, a collaborative Wiki-based encyclopedia, has become a huge phenomenon among Internet users. It covers a huge number of concepts of various fields such as arts, geography, history, science, sports and games. As a corpus for knowledge extraction, Wikipedia's impressive characteristics are not limited to the scale, but also include the dense link structure, URL based word sense disambiguation, and brief anchor texts. Because of these characteristics, Wikipedia has become a promising corpus and a new frontier for research. In the past few years, a considerable number of researches have been conducted in various areas such as semantic relatedness measurement, bilingual dictionary construction, and ontology construction. Extracting machine understandable knowledge from Wikipedia to enhance the intelligence on computational systems is the main goal of "Wikipedia Mining," a project on CREP (Challenge for Realizing Early Profits) in JSAI. In this paper, we take a comprehensive, panoramic view of Wikipedia Mining research and the current status of our challenge. After that, we will discuss about the future vision of this challenge.
著者
白川 真澄 中山 浩太郎 原 隆浩 西尾 章治郎
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.5, no.3, pp.51-63, 2012-09-28

語句をカテゴリ (トピック) に分類した概念辞書は,文書分類をはじめ様々なアプリケーションの基盤リソースとして必要とされている.代表的な概念辞書である WordNet は一般語を網羅的に定義しているが,固有名詞や専門用語,新語はあまり網羅されていない.一方,大規模 Web 百科事典である Wikipedia はそのような語句を数多く定義しており,また,語句を分類するためのカテゴリ構造を有している.しかし, Wikipedia のカテゴリ構造は,複数の親やループを許容するネットワーク構造であるため,ある語句がどのカテゴリに属しているかを判別するのは難しい.そこで本研究では,グラフ理論に基づいて Wikipedia のカテゴリネットワークを解析し,確率的に語句を分類する手法を提案する.また,語句の確率的分類の結果を教師データとし,ナイーブベイズによる文書分類を行う. Web 検索のスニペットを代表的な 8 カテゴリに分類するタスク,および科学に関するニュースのスニペットを 8 つの領域に分類するタスクにおいて評価を行い,提案手法の有効性を確認した.
著者
中山 浩太郎 原 隆浩 西尾 章治郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.56, 2008-06-12

Wikipedia は知識抽出のための有用なコーパスとして,人工知能や情報検索,Web マイニングなどの研究分野で最近急速に注目を集めている.筆者らの研究グループでは,Wikipedia から高精度な大規模連想シソーラスを構築できることを証明してきたが,is-a 関係などのような,より明確な意味関係の抽出が技術的課題であった.本研究では,リンク構造解析による重要文抽出と,自然言語処理を利用した解析手法を提案し,意味関係を抽出することで,Wikipedia から機械可読な概念辞書を自動的に構築することを目指す.The fact that Wikipedia is an invaluable corpus for knowledge extraction has been confirmed in various research areas such as AI, IR and Web Mining. In our previous researches, we have proved that we can extract a huge scale and accurate association thesaurus from Wikipedia. However, to construct a Web ontology from Wikipedia, extracting explicit relation types is a remaining technical issue. In this paper, we propose a method to construct a Web ontology from Wikipedia based on parsing and link structure analysis.
著者
宮崎 秀夫 花田 信弘 中山 浩太郎 十亀 輝 重岡 利幸 児島 正明 松田 修司 竹原 直道
出版者
九州歯科学会
雑誌
九州歯科学会雑誌 (ISSN:03686833)
巻号頁・発行日
vol.40, no.5, pp.1137-1142, 1986

鹿児島県長島高校生(15∿18歳), 181名を対象に, CPITN (WHO)を用いた歯周疾患の疫学調査を行なった.その結果, 長島高校生の9割弱が歯肉出血(Code 1)以上の歯周疾患の症状を呈しており, 歯石沈着(Code 2)以上の所見が認められる者の比率でみると, 北九州の高校生より, 20% (女)∿40%(男)高かった.また, 歯周疾患の処置の必要性に関しては, 長島高校生の約90%が口腔清掃指導を必要としており, 80%以上が除石を必要としていた.しかしながら, 複雑な治療を要する者は1名もいなかった.以上の所見より, 集団歯科保健指導や管理が行なわれやすいこの時期(高校生)までに, 歯周疾患に関する徹底した指導, 教育と, スクリーニングの必要性が示唆された.
著者
中山 浩太郎 伊藤 雅弘 Erdmann Maike 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.4, pp.49-60, 2009-12-24

Wikipediaは,インターネットを通じて誰でも編集可能なオンライン百科事典であり,ここ数年で爆発的に成長したソーシャルメディアの一種である.特に,自然言語,人工知能,データベースの研究分野で活発に研究が進められており,連想関係抽出や,対訳辞書構築,オントロジ構築など,数多くのWikipediaを対象とした研究が行われてきた.また,最近では多様なアプリケーションへWikipediaマイニングの成果を適用する事例が報告されており,その有用性が示されてきた.しかし,多量の研究発表が行われる一方で,全体像を把握することが困難になりつつあるのも事実である.本サーベイ論文では,これら最新のWikipedia研究を紹介しつつ,概観することで研究の目的面・技術面から分類し,Wikipedia研究の動向を探る.Wikipedia, an Wiki based online encycropedia, has become an emergent social media because of the significant effeciency for sharing huge amount of human knowledge via Web browsers. Especially, in NLP, AI and DB research areas, a considerable number of researches have been conducted in past several years. Relatedness measurement, bilingual dictionary extraction and ontology construction are ones of main Wikipedia Mining research areas. Furthermore, researches on application based on structured data extracted by Wikipedia Mining are becoming one of the essentials of Wikipedia research areas. In this survey paper, we introduce the new research papers and summarize the researches from both technical aspect and directional aspect.
著者
井上 大輝 木村 仁星 中山 浩太郎 作花 健也 Rahman Abdul 中島 愛 Patrick Radkohl 岩井 聡 河添 悦昌 大江 和彦
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1H3J1302, 2019 (Released:2019-06-01)

深層学習を活用した胸部 X 線写真の自動診断は現在盛んに研究されている.診断精度を改善するためには,異常と疑われる局所画像を抽出し,深層学習ネットワークの入力とするかが重要である.そこで本研究では,「診断時に医師が凝視している領域を異常と疑われる局所画像として抽出できるのではないか」 という仮説を立てた上で,視線データを基に抽出された局所画像を入力とする深層学習モデルを構築した.その結果,視線データを使用しない場合,または医師訓練を受けていない被験者の視線データを使用した場合に比べて,医師の視線データを使用した場合により高い精度が認められ,視線データの有用性を示した.
著者
松尾 豊 PRENDINGER HELMU 中山 浩太郎
出版者
東京大学
雑誌
新学術領域研究(研究領域提案型)
巻号頁・発行日
2016-06-30

(i)記号処理を組み込んだDeep Q Networkの構成に関しては、低次元の状態表現を獲得する手法に関する研究を進めた。具体的には、部分的な観測を扱うニューラルネットワークのモデルとして,人間の視覚的注意を模倣した注意機構(attention mechanism)を持つモデルが提案されている。しかし,これらのモデルでは,注意機構の学習がタスクから定義される外的な報酬信号を用いた強化学習によって行われており,外部からの報酬信号が得られない問題設定下では注意機構の学習を行うことができない。そこで、特定のタスクに依存しない方法で注意機構を学習させ,状態の予測を行う手法を構築した。また、よりロバストな状態表現の学習を行うため、深層敵対的強化学習(DARL)を複数のドメインに対して適用する研究も行った。その結果を、深層学習に関する国際会議のワークショップで発表した。次に (ii) 文章からの画像の生成モデルを用いた、画像空間での演算処理 に関して、文章(ソース文)から画像を生成し、それを別の言語での文章(ターゲット文)に変換する方式のニューラル機械翻訳(NMT)を実現した。単純に行うと精度の問題があるため、ソース文からターゲット文の変換を行うseq2seqのモデルに、画像の情報を加えるというアプローチをとった。すなわち、テキストと画像が持つ意味情報を,潜在変数として陽に含むニューラル翻訳モデルを提案した。実験では,Multi30kという,画像とそれに対応する英独の対訳コーパスを用い,提案モデルとの比較を行った.標準的な翻訳精度評価指標である METEORスコアにおいて全てのベースラインを上回った.また、この研究の過程において、seq2seqの学習時により密な報酬を与えることで精度がよくなることを発見し、 その結果を、深層学習に関する国際会議のワークショップで発表した。
著者
中山 浩太郎 原 隆浩 西尾 章治郎
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.10, pp.2917-2928, 2006-10-15

シソーラス辞書は,情報検索や自然言語処理,対話エージェントなどの研究領域において幅広くその有用性が実証されてきた.しかし,自然言語処理などによる従来のシソーラス辞書自動構築では,形態素解析や同義語・多義語の処理など,語の関連性を解析する前段階の処理において精度低下を招く要因がいくつかある.また,辞書作成時と利用時のタイムラグにより最新の語や概念への対応が困難であるという問題もある.そこで本論文では,これら2 つの問題を解決するために,ここ数年で急速にコンテンツ量を増加させたWiki ベースの百科辞典である「Wikipedia」に対し,Web マイニングの手法を適用することでシソーラス辞書を自動構築する方法を提案する.
著者
中山 浩太郎
出版者
東京大学
雑誌
若手研究(A)
巻号頁・発行日
2015-04-01

本研究課題では,最新の脳科学の知見を活かしてスケーラビリティの高いDeep Learning手法を開発し,柔軟な知識処理機構を実現することを目指している.本機構が目指す目標は,多様なタスク(アプリケーション)へ適用可能な汎用性の高い知識処理のモデルおよび,大規模なデータをリアルタイムに処理可能な並列処理に最適化された計算モデルの2点である.特に重要なのは,一般的な計算環境(PC等)でも実行可能な並列計算のためのモデルであり,GPU(OpenCL等)を利用した多コア環境で実行可能なモデルを構築する.さらに,本手法の有効性を実証するために,プロジェクトの前半ではスパムフィルタなどの比較的シンプルなタスクやデータに適用するが,プロジェクト後半では連想検索とオープンQAの二つのアプリケーションを期間内に構築することを目指して研究活動を推進してきた。以上の予定と活動に基づき、2016年度は予定どおり基礎研究に軸足を置きつつ、アプリケーションへの適用を試験的に進めてきた。特にスパース性の高いWebデータへの適用を積極的に進め、研究開発を推進してきた。さらに、当初の研究計画に基づき、研究成果の対外発信を強化してきた。論文誌で研究成果が掲載された他、情報処理学会論文誌を始めとする国内論文誌へ論文を投稿中である。また、Deep Learning系のトップカンファレンスにも積極的に論文を投稿中である。