著者
笹原 和俊 平田 祥人 豊田 正史 喜連川 優 合原 一幸
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

オンラインソーシャルメディアは、社会行動のマクロなパターンやダイナミクスを観察するのに適した系であるが、そのためにはソーシャルデータの特性を活かした解析が必要となる。本講演では、ツイートストリームを情報ダイバージェンスで特徴付け、Twitter上で生じる様々なタイプの集合注意について報告する。さらに、RTネットワークの構造に注目し、社会的相互作用の観点から集合注意のダイナミクスについて議論する。
著者
喜連川 優
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.55, no.10, pp.705-711, 2013

米国が2億ドルの研究開発投資をするとの発表以来,「ビッグデータ」なるITキーワードが急に取り上げられるようになった。本稿では,ビッグデータの背景について述べると同時に,情報爆発,情報大航海プロジェクトを振り返りながら,その本質について考察する。加えて,ITメディアを取り上げ,動画を用いつつ,ビッグデータの有用性について具体的に紹介する。さらに,ビジネスにおけるビッグデータとして,プローブカーのセンサー情報利活用,科学におけるビッグデータの動きとして第4の科学に触れ,最後に,データの利活用を促進するためのエコシステムの必要性について論ずる。
著者
村本 英明 鍜治 伸裕 吉永 直樹 喜連川 優
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3338-3348, 2011-12-15

近年のWeb上のCGM拡大により,社会分析やマーケティングの対象としてWebテキストに大きな注目が集まっている.そうしたテキストから有用な情報を抽出するためには,多義語の意味を正確に区別する処理(語義曖昧性解消)が非常に重要となる.しかし,訓練事例や辞書といった,語義曖昧性解消に必要な言語資源の構築には大きな作業コストが発生することから,高い精度で語義曖昧性解消を行うことは依然として実現困難となっている.特に,Webテキストのように多様な話題を含んだテキストを対象とする場合,この問題はいっそう深刻なものとなる.この問題の解決を図るため,本論文では,既存のWeb資源を活用することによって,語義曖昧性解消に必要な言語資源を半自動的に構築するための方法を提案する.実験においては,WikipediaとWebテキストに対して提案手法を適用することによって,実際に大規模な言語知識が構築可能であることを確認した.また,それらの言語資源をもとに語義曖昧性解消システムを構築し,その性能についても調査を行った.With the recent advent of consumer generated media (CGM) on the Web, the textual data on the Web has been given much attention as a target of social analysis or marketing. To extract useful information from such texts, it is crucial to precisely distinguish meanings of polysemous words (i.e., word sense disambiguation or WSD). However, due to the tremendous labor required to build a large amount of linguistic resources for WSD (e.g., training examples or dictionaries), it is still hard to perform WSD with enough accuracy. This is especially problematic in dealing with Web texts, which contains much more diverse topics than conventional news articles. To overcome this, we present a semi-automatic approach to building those linguistic resources from existing Web data. Our experiments confirmed that the proposed method is indeed able to build much larger linguistic resources than existenting ones. We also investigated the performance of WSD systems learned from those linguistic resources.
著者
相良 毅 喜連川 優
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.11, pp.49-57, 2007-06-15
被引用文献数
3

Webから地理情報を抽出する手法の1つに,あらかじめ検索対象のリストを作成し,クローリングによって得られた情報を各検索対象に関連づける登録型検索手法がある.登録型検索手法は,リストを用意せずにオンデマンドに検索を行う非登録型検索手法に比べ,より多くの情報を高い精度で収集できるという長所があり,評判情報抽出など情報の精度を必要とする処理には適しているが,リストに登録されていない対象に関する情報を収集することができないという欠点がある.そこで,登録型検索手法により収集されたWebページを対象として非登録型検索手法を援用することにより,リストにない新規店舗を高い精度で検索し登録できる手法を提案し,登録支援システムを開発した.To extract geographical information from the Web, there are two typical approaches. The 1st one is preparing all geographical entities as a list, and crawled web pages will be linked to them by analyzing their content. The other one is retrieving web pages on demand with keywords given by the user, extract addresses from the pages to locate them to the ground. The 1st approach is more precise and able to acquire more information in general, so the approach is suitable for reputation / opinion extraction, however, no entities on the list can not be retrieved by the approach. Therefore, we have applied the 2nd approach to find new shops which are not on the list, from the web pages retrieved by the 1st approach. Since the web pages retrieved by the 1st approach contain many shop information in high probability, the proposed method can extract new shops efficiently. A prototype registration support system is also developed.
著者
大塚真吾 豊田 正史 喜連川 優
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.18, pp.32-44, 2003-12-15
被引用文献数
12

ウェブページを閲覧する人々の行動モデルの抽出は重要であり多くの研究が行われている.既存の研究のほとんどはウェブサーバのログを用いたものであり,当該サイト上での挙動は把握できるものの,サイト外を含めたユーザの行動を解析することは容易でない.最近,テレビ視聴率調査と同様,統計的に偏りなく抽出された人(パネル)を対象にURL 履歴の収集を行う事業が登場している.パネルから集められたログ(パネルログ)の解析により,パネルが訪れたすべてのウェブページ(URL)を収集できる.ウェブサーバに対する従来のログ解析では解析対象となるページ空間が狭いのに対し,パネルログではきわめて広大なページ空間を対象とするため,個々のページの参照履歴から大域的な行動の把握は容易でない.本論文では類似したウェブページを抽出するウェブコミュニティ手法を用いたパネルログ解析システムを提案し,URL を基にした解析ではとらえ難い大域的なユーザの行動パターン抽出例を紹介する.To extract model of Web users' behavior is of decisive importance and there are a lot of work has been done in this area. As far as we know, most of the work utilize logs on serverside, even it can gain an understanding of behavior inside the server, but it is hard to analyze complete users' behavior (inside and outside the server). Recently, similar to survey on TV audience rating, a new kind of business appeared, which collects URL histories of users (called panel) who are selected without statistic deviation. By analyzing panel logs which are merged from panels, it becomes possible to collect all the web pages (URLs) accessed by the users. In contrast to Web server logs which have a limited page-space, panel logs have an extremely broad page-space. For this reason, it's difficult to get hold of behavior on global page-space by just checking reference histories. In this papaer, we propose a prototype system to extract user access patterns from panel logs and show users' global behavior patterns which are hard to be grasped for URL-based analysis using our proposed system.
著者
相良 毅 喜連川 優
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.91, no.3, pp.531-537, 2008-03-01
被引用文献数
1

Webからの店舗情報収集を行う際には,収集したWebページがある店舗に関連することを確認するため,店舗名称を識別語として利用する必要がある.しかし,店舗データベースに登録されている店舗名称には,支店名などWebページには記載されていない可能性のある語(不要語)が含まれているため,収集したページを正しく関連づけられないという問題がある.不要語にはビル名を用いた支店名など多くのバリエーションがあり,不要語辞書を整備して除去することは難しい,そこで,店舗データベースに含まれる住所の情報や,周辺の駅名,同じ住所に存在する複数の店舗名称を用いることにより,店舗名称をクリーニングする手法を開発した.実験によると,提案手法のクリーニング正解率は95.3%と実用的な性能を示した.
著者
Reddy P.Krishna 喜連川 優
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
巻号頁・発行日
vol.99, no.203, pp.37-42, 1999-07-23

本論文では投機的トランザクション処理における並行制御プロトコルの改善手法を提案する。提案する投機的入れ子ロック(SNL:speculative nested locking)プロトコルでは、副トランザクションが(実行後イメージを作り出す)データオブジェクトに対する仕事を終了した時には常に親がロックを継承するようになっている。待機中の副トランザクションは先行する副トランザクションの実行前後両方のイメージにアクセスすることによって投機的実行を行う。待機中のトランザクションは先行する副トランザクションの終了決定に基づき適切な実行を選択する。その結果、輻輳するトランザクション間の並列性が高められる。SNLアプローチでは投機的実行を支援するためにその分の処理と主記憶がさらに要求されることになる。この論文ではSNLアプローチを提案し、このアプローチによってMossの入れ子ロッキングプロトコルと比較してトランザクション内、トランザクション間の両方における並行性がいかに高められるかについて説明する。このアプローチでは限られた資源環境において主記憶とCPU資源のバランス化を図ることにより並行性を高めている。
著者
合田 和生 喜連川 優
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.3, pp.211-221, 2010-03-01

本論文では,グリーンレプリケーションと称し,業務継続を目的としたレプリケーションシステムにおける二次系ディスクストレージの省電力化方式を提案する.提案手法は,サービス復旧にかかる時間を意識した制御系のもとで,二次系に転送された更新情報をコンパクト化し,更新の反映操作を集中化することによって,ディスクドライブを長時間アイドル化する.商用データベースシステムを用いた実験により,30秒から100秒程度のサービス停止時間のオーバヘッドのもとで,二次系ディスクストレージの消費電力のうち80~85%を削減可能であることを示す.
著者
豊田 正史 喜連川 優
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
巻号頁・発行日
vol.102, no.64, pp.35-40, 2002-05-10
被引用文献数
1

本論文では,定期的に収集したウェブのスナップショットからウェブコミュニティの発展過程を抽出する手法を提案する.ここで言うウェブコミュニティとは,同じトピックに関心をもつ人々や組織によって作成されたウェブページの集合を指す.これまでに,リンク解析を用いてウェブコミュニティを抽出する様々な手法が提案されてきた.我々は,1999,2000,2001年に定期的に収集した3つのウェブスナップショットを比較することで,ウェブコミュニティの発展過程を調査した.この際,成長率,新規率,安定率など,興味ある発展過程の抽出に有用なメトリックスを導入した.さらに,発展過程の視覚化,および抽出の対話的な支援を行うシステムを構築した.このシステムはまず,各ウェブスナップショットから主要なウェブコミュニティとその間の関連度をすべて抽出し,発展過程のデータベースを構築する.ユーザは,関連度およびメトリックスを用いて,発展過程を抽出することができる.最後に,このシステムを用いて抽出した発展過程の例を幾つか示す.
著者
鍜治 伸裕 福島 健一 喜連川 優
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J92-D, no.3, pp.293-300, 2009-03-01

テキストマイニングでは,自然言語処理分野の基礎技術である形態素解析がモジュールとして利用されることが多い.しかし,ウェブには口語体のテキストが多く,新聞記事のような整ったテキストを対象としてきた自然言語処理技術では,十分な精度で解析を行うことは難しい.本論文では,形態素解析の精度低下は「ググる」などの片仮名用言が一因となっていることに着目し,それを大規模なウェブテキストから自動獲得する手法を提案する.
著者
大塚真吾 喜連川 優
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.77, pp.155-162, 2006-07-12

検索技術の進歩により検索精度は向上し,自分が調べたい事柄を検索語として入力するだけで様々な情報を得ることが可能となった.しかし,ユーザがいつでも検索目的に適した検索語を思い付くとは限らない.我々はテレビ視聴率調査と同様,統計的に偏りなく抽出された日本人(パネル)を対象にURL履歴の収集を行う大域ウェブアクセスログ(パネルログ)を用いて,与えられた検索語に関連する語(関連語)群を提示し,ユーザに検索語を想起させるシステムの提案をの提案を行った.本稿では構築したシステムの評価方法についての検討を行う.Due to the improvement of searching accuracy with development of technologies, it the becomes possible that users can get kinds of information by just inputting search word(s) representing the topic which users are interested in. But it is not always true that users can hit upon search word(s) properly. By using Web access logs (called panel logs), which are collected URL histories of Japanese users (called panels) selected without static deviation similar to the survey on TV audience rating, we proposed search keywords remembrance support system in order to show the related search words associated with the search words inputted by users. In this paper, we perform examination about evaluation methods of our system.
著者
安井 隆宏 田村 孝之 小口 正人 喜連川 優
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
巻号頁・発行日
vol.99, no.203, pp.79-84, 1999-07-23

分散メモリ型並列データベースシステムは, スケーラビリティに優れており, 近年の大規模化しつつあるデータベース処理に非常に適しているといえる。しかしながら, ノード数が増えると, ノード間の負荷に偏りが生じ易くなる。この問題を解決するために, 我々は, ライトディープハッシュ多重結合演算の結合演算フェーズにプロセッサ間でハッシュラインの移動を行い負荷の均等化を行う動的負荷分散アルゴリズムを提案し, PC 100台をATMスイッチで結合したPCクラスタシステムを用い, 30ノード規模での実験と検討を行って来た。今回, 我々は処理ノード数の増大に対し問題となる主記憶の制限を緩和すべく, ハッシュテーブル及びマイグレーションテーブルを動的に再構築する機構を導入した。本稿では, 実験結果から本動的負荷分散手法の100ノード規模の環境における有効性を示す。