著者
高木 允 森 康真 田村 慶一 北上 始
出版者
社団法人情報処理学会
雑誌
情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
巻号頁・発行日
vol.49, no.4, pp.93-104, 2008-03-15

本研究では,ブログの書き手であるブロガに焦点を当て,ブロガをノード,トラックバックによるつながりを辺としたグラフから,数カ月にわたって頻出し,かつ重複を許したコミュニティを発見する手法を提案する.提案手法は,複数のグラフから頻出部分グラフを抽出し,得られた頻出部分グラフに重複を許したクラスタリング手法を適用することにより,重複を許した頻出コミュニティを発見する.頻出部分グラフの抽出については,頻出部分グラフ抽出の問題を頻出アイテム集合抽出の問題に変換し,LCM 法を用いることで頻出部分グラフ抽出を達成している.重複を許したクラスタリングについては,頻出部分グラフをNewman らのクラスタリング手法を応用し,縮約グラフの作成と再クラスタリングすることで達成している.提案手法の有用性を確認するために,複数カ月にわたりブログデータを収集し,頻出コミュニティの抽出を行った.その結果,共通の興味・関心を持って頻出するコミュニティと,複数のコミュニティに重複してクラスタリングされるブロガを発見できた.In this study, we focus on bloggers who are writers of blog articles and propose a technique which extracts frequent and overlapped communities across multiple months from graphs consisting of nodes and edges. A node is defined as a blogger and an edge is a connection of trackback. First, the proposed technique extracts frequent communities by extracting frequent subgraphs. Second, the proposed technique extracts overlapping communities by clustering the extracted subgraphs. In the procedures of extraction of frequent subgraphs, we transform the frequent subgraphs extraction problem to the frequent itemsets extraction problem. In the first step, the LCM algorithm is applied to extract the frequent itemsets. In the second step,we applied the Newman's algorithm to find overlapping clusters. To confirm the availability of proposed technique, we collected the graph data and extracted the frequent communities.As a result, frequent communities which have common interests and the bloggers who are clustered into multiple clusters are extracted.
著者
高木 允 田村 慶一 森 康真 北上 始
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2007, no.54, pp.39-45, 2007-05-31

本研究では、Newman らの提案するネットワーク構造解析に基づくクリスプなクラスタリングアルゴリズムを改良し、ひとつのノードが複数のクラスタに重複してクラスタリングされることを許したグラフのクラスタリング手法を提案する。提案する手法は、一度 Newman らの提案するアルゴリズムを用いてグラフのクラスタリングを行った後、それぞれのクラスタをひとつのノードとした縮約グラフの作成を行う。縮約グラフを再度 Newman らの提案するアルゴリズムを用いてクラスタリングし、重複してクラスタリングされるノードを識別する。重複を許したクラスタリングを行うことで、クリスプなクラスタリングに比べ、柔軟なクラスタリングを行うことができる。ブログのトラックバックデータを用いた評価実験を行い、提案手法の有効性を示すことができた。In this paper, we propose a method of overlapping cluster based on network structure analysis which improves the clustering algorithm proposed by Newman et al. Newman's clustering algorithm is the crisp clustering algorithm. In the proposed technique, first, we cluster the nodes using the Newman's algorithm. Then, we make the contraction graph which is considerd a cluster as a node. In addition, we cluster the created contraction graph by using the Newman's clustering algorithm again and identify the overlapping nodes. Overlapping clustering is more flexible than crisp clustering. The experimental results using the trackback data based on blog represented efficacy of proposed technique.
著者
田村 真吾 田村 慶一 北上 始 平原 海詞
出版者
IEEE SMC Hiroshima Chapter
雑誌
IEEE SMC Hiroshima Chapter Young Researchers' Workshop proceedings = IEEE SMC Hiroshima Chapter若手研究会講演論文集 (ISSN:21873577)
巻号頁・発行日
pp.47-50, 2012

Extracting useful knowledge from a large-scale set of Web images, which are posted on the Internet, through social media sites, has become a new type of challenge. The main objective of this study is to extract the events and track the topics of a document stream that includes Web images, called an image document stream. This paper proposes a novel method for burst detection for an image document stream. The proposed method integrates a clustering technique with Kleinberg's burst detection. The experimental results show that the proposed method can extract the events and track the topics related to Web images posted on social media sites.
著者
橋田 修一 田村 慶一
雑誌
情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
巻号頁・発行日
vol.13, no.2, pp.22-35, 2020-08-28

近年,深層学習を用いた時系列データの分類問題に関する研究がさかんに行われており,時系列データを高精度に分類することができる深層モデルの開発が求められている.本論文では畳み込みニューラルネットワーク(CNN)とMACDヒストグラムを用いた新しい分類手法としてMulti-Channel MACD-Histogram-based LSTM-FCN(Multi-Channel MHLF)を提案する.先行研究において,時系列データの分類問題に対してCNNを用いた分類手法が提案されており,その有効性が示されている.本研究では時系列データと時系列データから抽出したMACDヒストグラムとをマルチチャネルデータとして入力する手法を検討する.Multi-Channel MHLFはMACDヒストグラムとして短期と長期の2種類のウィンドウを用いて異なる特徴を抽出し,深層モデルとして時系列データの分類において高い精度が報告されているLSTM-FCNモデルにマルチチャネルデータを入力する手法となっている.評価実験では時系列データの分類問題のためのベンチマークとして公開されているUCRアーカイブデータセットを用いて,従来手法との比較実験を行った.実験の結果,提案手法は従来手法よりも分類精度が高いことが確認できた.
著者
田村慶一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告アルゴリズム(AL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.24, 2008-03-07

ウェブログ(ブログ)の登場によりウェブに関する深い知識を持たない人々も容易に情報を発信できるようになっている.プログは個人の意見を反映したものが多く,世の中の動きを知る上でブログのデータから有益な知識を発見することが重要な課題となっている.特に,ブログは膨大なテキストデータだけではなく,データ同士がトラックバックやリンクなどにより"つながり"を持つことに特徴があり,この"つながり"に着目した解析が必要となる.本研究では,時系列ブログデータの "つながり"(ブロガー同士のつながり)から作成されるグラフ集合に着目し,データマイニングの技術を応用して,グラフの集合から有益な知識を取り出すことを研究の目的としている.具体的にはブログのトラックバックが形成するグラフ集合に焦点を当て,このグラフ集合から頻出かつ重複を許したコミュニティを発見する手法の開発を行ってきた.頻出なコミュニティとは,ある一定期間ごとに発生するグラフの中で,頻出する部分グラフであり,特定の話題を頻繁に扱っているブロガー群といえる.そのようなプロガー群を発見することは,ブログ検索クチコミ情報の信頼性の向上やブロガーヘの情報推薦などへの応用が期待することができる.本発表では 時系列ブログデータから頻出するコミュニティを抽出する方法,重複を許すコミュニティ抽出法とコミュニティ抽出法の高速化手法を説明するとともに,評価実験の結果などを示す.