著者
江口 浩二 大川 剛直
出版者
神戸大学
雑誌
特定領域研究
巻号頁・発行日
2007

情報爆発時代と呼ばれる今日、インターネット上に発信された情報は, 発信者にも制御不能な形で流通することが少なくなく、一旦流通したこれらの情報はアンドゥーすなわち発信される前の状態に戻すことは通常不可能である。また、これらは膨大な他の情報に埋没しがちであるため、既存の手段で探し当てるのは容易でない。本課題では、とくに、人物や組織等に対する誹謗中傷、ならびに、災害、事故、事件などの風評に着目し、それらの発見を支援するための技術基盤として、情報検索および情報追跡手法を開発する。平成20年度は主に以下の基本技術の開発に取り組んだ。1.逐次的に配信される文書系列に対するトピック追跡問題のため、情報理論に基づく語の重みづけ法を開発し、従来手法と比較して有意な改善を実現した。2.ブログポスト間のハイパーリンクとブログボストの潜在トピックに着目して、ブログ空間における情報伝搬を解析する手法を開発し、現実のプログデータを用いた評価実験によって有効性を示した。3.人物名や地名などのエンティティ(固有表現)がタグ付けされた文書の集合から、エンティティ間の関係を示すネットワークを推測する手法を実現した。4.タグで構造化された文書の集合から推定した潜在トピックに基づいて、構造化文書を効果的に検索する手法を実現した。Wikipediaデータを用いた評価実験によって提案手法の有効性を示した。5.マルコフ確率場モデルに基づく語間依存性のモデルにより、自然言語文で表現された質問から構造化クエリを構築し、高精度なWeb検索を実現した。
著者
江口 浩二 塩崎 仁博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2008, no.56, pp.73-80, 2008-06-12

最近,確率的トピックモデルに基づく情報検索手法が提案され,言語モデルの枠組みにおいて潜在的ディリクレ配分法(LDA)またはその変形を用いた実験で良好な結果が報告されている.しかしながら,アノテーション付き文書を検索するタスクに対しては,LDA に基づく手法ではアノテーションによって特定された属性型を直接利用することができない.本稿では,アノテーション付き文書コレクションのための新たなアドホック検索手法を提案する.提案手法は多重多型トピックモデルに基づく.これは,Wikipedia におけるエンティティ,カテゴリラベル,その他の語を典型とする,複数種の単語型を直接扱うことができる.この多重多型トピックモデルをアドホック検索に適用する方法を新たに提案し,Wikipedia を用いたエンティティ検索に関する実験によって提案手法の有効性を示す.Very recently, topic model-based retrieval methods have produced good results using Latent Dirichlet Allocation (LDA) model or its variants in language modeling framework. However, for the task of retrieving annotated documents, LDA-based methods cannot directly make use of multiple attribute types that are specified by the annotations. In this paper, we explore new retrieval methods using a 'multitype topic model' that can directly handle multiple word types, such as annotated entities, category labels and other words that are typically used in Wikipedia. We investigate how to effectively apply the multitype topic model to retrieve documents from an annotated collection, and show the effectiveness of our methods through experiments on entity ranking using a Wikipedia collection.
著者
許 蔚然 江口 浩二
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会第二種研究会資料 (ISSN:24365556)
巻号頁・発行日
vol.2020, no.FIN-024, pp.177, 2020-03-14 (Released:2022-11-25)

In this paper, we aim to predict stock prices by analyzing text data in financial articles. TopicVec is a topic embedding model that represents latent topics in a word embedding space. Here, word embedding maps words into a low-dimensional continuous embedding space by exploiting the local word collocation patterns in a small context window. On the other hand, topic modeling maps documents onto a low-dimensional topic space. Using the topic embedding model, topics underlying each document can be mapped into the word embedding space by combining word embedding and topic modeling. The topic embedding model has not been used to address regression problem and also has not been used to predict stock prices by analyzing financial articles, to our knowledge. In this paper, by extending the topic embedding model to regression, we propose a topic embedding regression model called TopicVec-Reg to jointly model each document and a continuous label associated with the document. Our method takes financial articles as documents, each of which is associated with a stock price return as a continuous label, so that we can predict stock price returns for new unlabeled financial articles. We evaluate the effectiveness of TopicVec-Reg through experiments in the task of stock return prediction using news articles provided by Thomson Reuters and stock prices by the Tokyo Stock Exchange. The result of closed test shows that our method brought meaningful improvement on prediction performance.
著者
福増 康佑 松浦 愛美 江口 浩二
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.4, pp.1-7, 2011-05-09

トピックモデルは大規模なテキストデータコレクションの解析に広く使用されているアプローチである.最近,Wikipediaを典型とする並列または比較可能な多言語データにおいて潜在トピックを発見する多言語トピックモデルが研究されている.また,元々は内部構造を持つ文書を対象として開発されたトピックモデルのうち,多言語の文書にも適用可能なものがある.しかしながら,現在まで多言語トピックモデルの比較評価を行った報告は我々の知る限りない.我々は多言語文書データに適用可能ないくつかのトピックモデルの性能を,テストセット対数尤度,トピック割り当てのヒストグラム,そして言語横断ストーリーリンク検出タスクに着目して比較評価した.実験により,これまで多言語に関連した研究に用いられてこなかったトピックモデルのいくつかが,従来研究で用いられた多言語トピックモデルより優れていることを示した.Topic modeling is a widely-used approach to analyze large text collections. Recently a few number of multilingual topic models have been explored to discover latent topics among parallel or comparable documents, such as Wikipedia. Moreover, there are some other topic models that were originally proposed for documents with structure and are also applicable for multilingual documents. However, no comparative studies have been reported for the purpose of multilingual topic modeling, to our knowledge. We compared the performance of various topic models that can be applied to multi-language documents in terms of test-set log-likelihood, histograms of topic assignments, and also in the task of cross-lingual story link detection. We demonstrated through the experiments that several topic models that have not ever used for multilingual context work better than the other multilingual topic models that were used in prior work.
著者
福増 康佑 松浦 愛美 江口 浩二
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011-SLP-86, no.4, pp.1-7, 2011-05-09

トピックモデルは大規模なテキストデータコレクションの解析に広く使用されているアプローチである.最近,Wikipediaを典型とする並列または比較可能な多言語データにおいて潜在トピックを発見する多言語トピックモデルが研究されている.また,元々は内部構造を持つ文書を対象として開発されたトピックモデルのうち,多言語の文書にも適用可能なものがある.しかしながら,現在まで多言語トピックモデルの比較評価を行った報告は我々の知る限りない.我々は多言語文書データに適用可能ないくつかのトピックモデルの性能を,テストセット対数尤度,トピック割り当てのヒストグラム,そして言語横断ストーリーリンク検出タスクに着目して比較評価した.実験により,これまで多言語に関連した研究に用いられてこなかったトピックモデルのいくつかが,従来研究で用いられた多言語トピックモデルより優れていることを示した.
著者
江口 浩二 高須 淳弘 大川 剛直
出版者
神戸大学
雑誌
基盤研究(B)
巻号頁・発行日
2011-04-01

本課題では、内部構造や外部構造を持つテキストデータとネットワークデータに対して確率的に表現された潜在構造を推定する技術を開発する。ここでいう内部構造とは、たとえば、テキストデータにおいてトークン(単語)が属性で特徴づけられたものを指し、ネットワークデータにおいては各頂点または辺が属性で特徴づけられたものを指す。また、外部構造とは、たとえば、所与のネットワーク構造における各頂点にテキストデータ群が関連付けられた状況を指す。このような複雑な構造をもつ大規模なデータから低次元の潜在構造を推定することで、様々な実問題に利用可能な「知識」を抽出する。情報の検索、推薦、予測と、時系列解析などに応用する。
著者
横山 正太朗 江口 浩二 大川 剛直
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.3, pp.180-188, 2010-03-01

近年ブログの利用が爆発的に増加しており,重要な情報源の一つになりつつある.ブログは,ハイパリンクを利用することで,参考にした情報を明示的に参照することが可能であり,このネットワークを対象にした研究が最近注目されつつある.しかし,こういった研究のほとんどが,リンク情報のみを対象にしており,本文の情報を参照していない.そこで本研究では,リンク構造だけでなく,本文のトピックを推定し,適切に情報伝搬をとらえる手段を確立することを目的とする.文書集合の潜在的なトピックを統計的に推定するのに用いられる確率的トピックモデルの代表的なものに,潜在的ディリクレ配分法(Latent Dirichlet Allocation:LDA)が挙げられ,広く用いられている.本研究では,このLDAを用いてポストのトピックを推定し,リンク間のトピック分布を比較することで,情報伝搬の単位(カスケード)を的確に抽出する枠組みを提案する.日本語ブログデータを用いた実験において,提案手法の有効性を示す.
著者
江口 浩二
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.3, pp.157-169, 2010-03-01

情報検索のための確率的言語モデルは1998年にPonteとCroftによって提案されてから,情報検索やそれに関連する課題に対する新たなアプローチとして注目を浴びてきた.その特徴の一つに,それまでに研究されてきたベクトル空間モデルや古典的確率型検索モデルで導入された発見的方法を極力用いず,数理的に説明可能な枠組みである点が挙げられる.その表現能力と柔軟性の高さにより,適用範囲は非構造なテキストデータに対する種々のタスクだけでなく,構造化文書検索やクロスメディア検索にも及ぶ.そこで,本論文では,情報検索のための確率的言語モデルの研究動向と将来課題について調査する.
著者
江口 浩二 塩崎 仁博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.56, pp.73-80, 2008-06-12

最近,確率的トピックモデルに基づく情報検索手法が提案され,言語モデルの枠組みにおいて潜在的ディリクレ配分法(LDA)またはその変形を用いた実験で良好な結果が報告されている.しかしながら,アノテーション付き文書を検索するタスクに対しては,LDA に基づく手法ではアノテーションによって特定された属性型を直接利用することができない.本稿では,アノテーション付き文書コレクションのための新たなアドホック検索手法を提案する.提案手法は多重多型トピックモデルに基づく.これは,Wikipedia におけるエンティティ,カテゴリラベル,その他の語を典型とする,複数種の単語型を直接扱うことができる.この多重多型トピックモデルをアドホック検索に適用する方法を新たに提案し,Wikipedia を用いたエンティティ検索に関する実験によって提案手法の有効性を示す.Very recently, topic model-based retrieval methods have produced good results using Latent Dirichlet Allocation (LDA) model or its variants in language modeling framework. However, for the task of retrieving annotated documents, LDA-based methods cannot directly make use of multiple attribute types that are specified by the annotations. In this paper, we explore new retrieval methods using a 'multitype topic model' that can directly handle multiple word types, such as annotated entities, category labels and other words that are typically used in Wikipedia. We investigate how to effectively apply the multitype topic model to retrieve documents from an annotated collection, and show the effectiveness of our methods through experiments on entity ranking using a Wikipedia collection.