著者
高橋公海 佐藤進也 松尾真人
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.24, pp.1-6, 2013-07-15

Web 上の blog 記事や Twitter などのテキストには,日常生活における人々の行動や出来事と,その繋がり (行動パターン) が記述されている.それらのテキストデータを元に行動パターンをモデル化することが出来れば,人間の行動や思考の予測が可能となり,ユーザに対して状況に即した行動提示 (ナビゲーション) や推薦,といったコンテキストアウェアサービスへの応用が見込まれる.とり得る行動は状況により異なるため,モデル化する際にはどのような状況において成立する行動パターンであるかを考慮することが望ましい.そこで本稿では,blog 記事集合を対象として,キーワードに関連する状況毎に文書集合をクラスタリングし,文書集合全体から推定した行動パターンの頻度と,クラスタ内の文書集合から観測される頻度の差を利用して重み付けすることにより,状況に依存した行動パターンを抽出する手法について検討を行った.実験では,本手法を用いて blog 記事集合から抽出した状況ごとの行動パターン例についても報告する.The ability to understand our daily behaviors has long been regarded as enabling a variety of useful applications(e.g. activity-based actuation, recommendation). In this paper, we present an approach to extract context-dependent human behavior models from weblogs. At first, we apply clustering method to weblogs, and then extract important behavior patterns from each cluster using word frequency. We estimated our method by experiment and made sure the effect of it.
著者
高橋公海 佐藤進也 松尾真人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 情報学基礎研究会報告
巻号頁・発行日
vol.2013, no.24, pp.1-6, 2013-07-15

Web 上の blog 記事や Twitter などのテキストには,日常生活における人々の行動や出来事と,その繋がり (行動パターン) が記述されている.それらのテキストデータを元に行動パターンをモデル化することが出来れば,人間の行動や思考の予測が可能となり,ユーザに対して状況に即した行動提示 (ナビゲーション) や推薦,といったコンテキストアウェアサービスへの応用が見込まれる.とり得る行動は状況により異なるため,モデル化する際にはどのような状況において成立する行動パターンであるかを考慮することが望ましい.そこで本稿では,blog 記事集合を対象として,キーワードに関連する状況毎に文書集合をクラスタリングし,文書集合全体から推定した行動パターンの頻度と,クラスタ内の文書集合から観測される頻度の差を利用して重み付けすることにより,状況に依存した行動パターンを抽出する手法について検討を行った.実験では,本手法を用いて blog 記事集合から抽出した状況ごとの行動パターン例についても報告する.
著者
佐藤進也 福田 健介 菅原 俊治 栗原 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.14, pp.69-81, 2007-09-15
被引用文献数
1 6

文書に現れる語をノードとし,出現位置が近接しているものどうしをリンクで結び付けることにより得られる共起ネットワークでは,意味的関連性を有する語どうしがクラスタ構造と呼ばれる稠密な相互のつながりを形成している.本論文では,時間経過にともない文書が生成されていく,いわゆる文書ストリームから共起ネットワークを構成し,そこでクラスタ構造が生成される様子を調べた.その結果,共起ネットワークを(相対的に)古い語彙からなる部分と新しい語彙からなる部分に分けたとき,後者において,クラスタの出現という構造上の変化が,実社会の出来事などに起因する語の出現頻度の増大(バースト)に関連していることが明らかになった.In word co-occurrence networks, where two words appearing close to each other in documents are connected by a link, a group of relevant words forms a densely connected subnetwork called a cluster. In this paper, we analyze the process of emergence of the structure in co-occurrence networks generated from document streams. The analysis reveals that, if we restrict our scope to the subnetwork mostly consisting of (relatively) new words, we can associate emergence of the structure with the increase of word occurrence rate (bursts) that arises from real world events.
著者
佐藤進也 風間 一洋 福田 健介 村上 健一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.46, no.8, pp.26-36, 2005-06-15
被引用文献数
4

巨大なデータベースであるWeb から知識を抽出する一手法として実世界指向Web マイニングを提案する.従来のマイニングでは主に統計的な処理によりデータの特徴が抽出されていた.これに対し,実世界指向マイニングでは,実世界を意識したデータの解釈,具体的には,実世界のエンティティがデータの中にどのように現れ,相互にどういう関係を形成しているかを調べる.この考え方をWeb における人物の識別に適用し,同姓同名人物の分離を行った.これは,与えられた人名が出現するWeb ページを同一人物ごとにグループ分けするタスクで,本手法を用いた場合,平均9 割以上の高い率で正しく処理できることを確認した.This paper proposes a technique called "real-world oriented Web mining" for extracting knowledge from the Web regarded as a huge database. While conventional mining techniques search for characteristics of data mostly by statistical analysis, the proposed technique interprets data from real-world oriented point of view. In more concrete terms, it locates real-world entities in the data and analyzes relationships among them. This idea has been applied for performing a task to distinguish between people on the Web with the same first and last name. The task is to classify Web pages with a given person's name into groups each of which corresponds to a person in the real world. With the proposed technique, people have been identified with accuracy more than 90% on average.
著者
原田 昌紀 風間 一洋 佐藤進也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.20, pp.45-52, 2001-03-05
被引用文献数
7

WWWの急速な普及に伴い,Webディレクトリの構築と維持に要するコストは増大しつつあり,登録や更新作業に大幅な遅延をもたらしている.そこで我々はハイパーリンクの参照共起関係に基づく関連Webページ発見アルゴリズムを用いて,Webディレクトリを自動的に拡大する手法を提案する.多数のカテゴリから成る実際のWebディレクトリに対して,4種類のアルゴリズムごとに提案する手法を適用し,その有効性とアルゴリズムによる差違を示す.With the rapid growth of the web, it is getting harder to build and maintain web directories and there are significant delays in registering or updating information. To meet the situation, we propose a new method to automatically expand a web directory using related web finding algorithms based on co-citation analysis of hyperlinks. We apply the proposed method with four algorithms respectively to a web directory in real use which consists of hundreds of categories to show effectiveness of the method and differences among the algorithms.