著者
後藤康路 油井誠 横山昌平 小島功 石川博
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.16, pp.1-6, 2012-11-12

本論文では, KDDcup 2012 track2 の商用検索エンジンの大量検索ログからの広告クリック率予測タスクを MapReduce 処理系である Hadoop 上で確率的勾配降下法 (Stochastic Gradient Descent) を用いて解いた事例を示し,大規模機械学習を実践的システムに適用したことにより得られた知見を示す.本論文の核となる貢献は,確率的勾配降下法による大規模なオンライン学習を Hive/Pig 上でそれぞれ実現した事例を示し,課題となる問題とその対処法などを明らかにすることにある.また, Hadoop 操作系として代表的な Hive と Pig について,それぞれの特徴,言語体系の違いによる学習器の実装への影響,性能差を述べる.
著者
石原 裕規 諏訪 博彦 鳥海 不二夫 太田 敏澄
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.14, pp.1-6, 2012-12-05

東日本大震災時に,人々は, Twitter により様々な情報収集や,情報交換を行い震災に対処した.この際,情報発信や拡散の起点となるアカウントや,情報を仲介するアカウントが重要となる.ネットワーク分析においてこれらのアカウントは次数中心性と媒介中心性で表現できると考える.本研究では,二つの中心性を算出し,アカウントを特定し,コミュニケーション形態により分類した.今後このアカウントがどのような役割を果たしていたか理解し,今後の震災時における Twitter 利用に繋げられると考える.Using tweets extracted from Twitter during the Great East Japan Earthquake 2011, social network analysis techniques were used to generate and analysis the online networks that emerged at that time. People attempted to collect information about earthquakes and to communicate with friends through the twitter, and it is coping with the earthquake disaster. The aim was to identify active players for the Great East Earthquake on twitter. We construct a communication network and calculate two centrality measures(degree and betweenness) on twitter. As a result, Important players during the Great East Japan Earthquake were found to be: media reporters, people from not-for-profit, social media volunteers, newspaper publishing company, celebrity, and autonomous computer program.
著者
青木 伸也 湯本 高行 角谷 和俊 新居 学 高橋 豐
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.16, pp.1-8, 2009-11-13
参考文献数
18

ニュースは同じトピックでも新聞社ごとに報道内容に違いがある.これは新聞社ごとに様々な論点に対しての見解が違うからで,1 つの新聞だけ読んだ読者は,他の新聞では異なる見解が示されているにも関らず,その 1 つの新聞と同じ見解を持ってしまう恐れがある.そこで,あるトピックについての新聞記事の集合から新聞社ごとの編集意図を抽出する手法を提案する.各見解は論点と極性 (ポジティブ/ネガティブ) からなるとし,その集合として編集意図をモデル化する.抽出の際には,見解を述べていると考えられる見解文に注目し,精度よく編集意図を抽出することを目指す.ユーザは可視化された編集意図を見ることで各社の見解の違いを比較することができる.When the several authors report the same news topic, reported facts are often different by the author. It is because each author has his own observation about various points of the news topic. If users read newspapers of only one author, they obtain biased understanding about the news topic. In this paper, we propose the method for extracting author intentions. We model author intentions as sets of observations consisted of (argument-point, positive/negative, strength of observation). In our proposed method, we use sentences which often express observation to extract author intention in high accuracy. Users can compare some authors by looking at visualized author intention.
著者
西 友規 山口 実靖 小林 亜樹
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013-DBS-157, no.29, pp.1-6, 2013-07-15

動画共有サービスが普及し,多くの動画が動画共有サイトで共有されている.しかし,既存の動画検索手法の精度は必ずしも十分とは言えず,単語による動画検索精度の向上は重要な課題の一つと考えることができる.本稿では,web コミュニティ抽出手法,動画共有サイトにおいてユーザが公開している動画リスト,タグ使用頻度分布に着目し,これらに基づく動画検索手法を提案し,動画リストの特徴を考慮した改善手法について考察する.そして,評価実験により提案手法の有効性を示す.
著者
白田 由香利
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.5, pp.1-7, 2009-11-13

本論文では,商品の配色イメージに対する感性評価を消費者が行う際,消費者の配色イメージに対する感性の類似度を表現する尺度として,主成分分析を用いることを提案する.インターネット上の膨大な数の商品群の中から,自分の感性に合った配色イメージのものを検索することは容易ではない.検索の際,アドバイスをしてくれるアドバイザーがいると検索のコストを軽減することが可能となる.しかしながら,アドバイザーの感性が自分の配色イメージの感性に類似しているか否かを示す,尺度およびその測定法があることが望まれる.本論文の提案は, warm および soft の 2 因子から求められる主成分軸の傾きの角度を,類似の尺度として利用することである.この手法により,婦人靴の配色イメージに対する感性の類似度を測定した.In the paper, it is proposed to use principal component analysis as measurements for affective impression (Kansei) similarities when consumers evaluate color image of the product. When we retrieve a lot of products on the Internet, it is very difficult to select ones with impressive color image. If advisors on the Internet give us their recommendations, the selection would cost much less than while browsing alone. However, the advisor's Kansei will then have to be similar to the consumer's Kansei. Therefore measurement of Kansei is required. I propose that as the measurement we use the inclination angle of the obtained principal component axis from two variables, warm and soft. By the measurement, I evaluate color image Kansei similarities of shoes for women among respondents.
著者
吉田 光男 乾 孝司 山本 幹雄
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2009-DBS-149, no.20, pp.1-8, 2009-11-13

近年のブログの普及により,ブログのコンテンツを利用するサービスや研究が盛んになってきている.ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読者によるコンテンツに大分する事ができる.ブログのコンテンツを利用する場合は,それらが別々に抽出できている事が望ましい.本論文では,ブログ記事集合を用いる事により,ポストとコメントを自動的に分離抽出する手法を提案する.本手法は,ポストはブログ記事集合全てのブログ記事に出現するが,コメントはいずれかのブログ記事にしか出現しないというアイデアが基になっている.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を示す.
著者
川島 英之
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.37, pp.25-28, 2009-03-27

本稿ではDEIM'09 BoF セッション 「e-Science に関する 30 の質問」 の様子を簡単に報告する.同セッションでは国内から気鋭の若手研究者ならびに学生らを招き,e-Science という新しい分野について忌憚のない議論を交わすことでその本質を明らかにしようと試みた.議論の結果,e-Sciece がエキサイティングであり幅広い分野の既存科学と結びついている反面,いまだその核となる技術が不明確であるため今後深く考えられる必要があろう,という結論が得られた.This paper reports the result of discussion in the BoF session "30 questions about e-Science" which was held on DEIM'09. In that session, brilliant young researchers and students were invited, and they discussed about a new research field e-Science. The result of discussion acquired the following clear conclusions. (1) The e-Science is an exciting research field, and it is related to wide range of conventional scientific fields. (2) Unfortunately core academic topics are still unclear, and should be deeply considered.
著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.39, pp.1-8, 2010-11-05

評判解析や文書の要約、検索などを高精度に行うために、係り受け解析や格解析が用いられるが、ブログや電子掲示板上の文書を対象とする場合、口語的な記述が多数見られるため、十分な解析精度が得られないことが課題となる。本稿では、口語的な記述に頻繁に見られる助詞落ち表現が解析精度低下の原因の1つであることに着目し、助詞落ちを自動的に推定し、欠落した助詞を補完することで解析精度を向上する手法を提案する。提案手法では、新聞などの助詞落ちの少ない正規の文書から意図的に助詞落ちを発生させた文書を正例、助詞落ちを発生させていない文書を負例として識別器を学習させ、解析対象である口語文書の助詞落ち箇所を推定する。加えて、推定した助詞落ち箇所の前後の単語をキーとして新聞文書を検索することで、適切な助詞を自動的に補完する。性能評価実験では、Webから収集したブログ文書に対して、人手により助詞落ち箇所と補完すべき助詞を付与し、提案手法における助詞落ち推定精度および補完精度の評価を行った。加えて、助詞を補完することによる係り受け解析精度の向上についても評価した。In this paper, we propose algorithms for reducing the errors of the dependency analysis on colloquial style sentences by complementing the omission of postpositions which makes dependency analysis errors. In our algorithms, the omission of postpositions is detected by a classifier which is trained by the features extracted from formally written documents such as newspaper sentences. As positive examples of the classifier, we automatically omit the postpositions from newspaper sentences, and as negative examples, we used the newspaper sentences as they are. After estimating the omission of the postpositions, complementation candidates of the omitted postpositions are automatically retrieved from newspapers. In the experimental evaluations, we collect blog documents which contain colloquial style sentences and manually labeled the omitted postpositions on them. We evaluated the estimation accuracy, complementation accuracy, and improvement of the dependency analysis accuracy.
著者
捧 隆二 中村 聡史 田中 克己
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.9, pp.1-7, 2012-12-05

デジタルカメラの低価格化に伴い,日常的に大量の写真を撮影する人々が増えてきている.それに伴い,個人の写真集合の中から写真を検索するニーズも増加している.既存の写真ブラウザは時間・位置・人物情報を用いて写真を検索することができるが,ユーザは自身の属する社会的コミュニティのいずれかに属する写真が欲しいというニーズを持つこともある.そこで,本研究はコミュニティをベースとした個人画像の検索を実現することを目的とする.本稿ではまず,個人の写真集合の中から個人間の社会的関係性の強弱を推定する.そして,その社会的関係性に基づき,人間関係をネットワーク化し,それをさらにクラスタリングすることで,社会的コミュニティの抽出を試みている.More and more people take many photos routinely with appearance of digital camera. And the need to search for photos from personal photos has been increasing. Existing photo browsers can search for photos using the time-position and human information. But The user may want to search a photo related one of their own social communities. Therefore, this study aimed to realize personal image retrieval based on the community. In this paper, we estimate the strength of social relationships between individuals in a set of personal photos. Based on the social relationships, we network relationship, cluster the network, and find the social communities.
著者
坂倉 悠太 天笠 俊之 北川 博之
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.3, pp.1-8, 2012-07-25

本稿では,閲覧者の増加や検索エンジン最適化のために多くのユーザアカウントを用いて対象 Web リソースをブックマークする "複数のユーザアカウントを用いた集中的ブックマーク (Intensive Bookmarking using Multiple Accounts, IBMA)" の検出手法を提案する.効率的に IBMA を検出するために,ブックマーク中の Web リソースもしくは Web サイトの共通性に基づいて,ユーザアカウントのクラスタリングをする.具体的には,類似した Web リソースもしくは Web サイトの集合をブックマークしているユーザアカウントをクラスタリングする.このために,二つのブックマーク集合に対する三つの類似度を提案する.実験により,提案手法が,実際のデータセットにおいて IBMA を正しく検出できることを示した.また,類似度ごとの提案手法の精度を評価し,特徴を述べる.This paper proposes a scheme of detecting "Intensive Bookmarking using Multiple Accounts" (IBMA), where many social bookmark accounts are used to create bookmark entries linking to the target web resources with the aim of increasing site visitors or optimizing search result ranking. To efficiently detect IBMA, we propose to use clustering social bookmark user accounts according to the similarity with respect to the bookmarked web resources or web sites. Specifically, we cluster users who create bookmarks linking to similar set of web resources or web sites. For this, we propose three similarity measurements over two sets of bookmarks. We experimentally show that the proposed scheme successfully detects IBMA spammers in a real dataset. We also evaluate the accuracy of the proposed scheme with varying the similarity measurements, and characterize them.
著者
片山 太一 芳中 隆幸 宇津呂 武仁 河田 容英 福原 知宏
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.19, pp.1-8, 2009-11-13
被引用文献数
1

本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.Spam blogs or splogs are blogs hosting spam posts, created using machine generated or hijacked content for the sole purpose of hosting advertisements or raising the number of inward of target sites. Among those splogs, this paper focuses on detecting a group of splogs which are estimated to be created by an identical spammer. We especially show that similarities of html structures among those splogs created by an identical spammer contribute to improving the performance of splog detection. In measuring similarities of html structures, we extract a list of blocks (minimum unit of content) from the DOM tree of a html file. We show that the html files of splogs estimated to be created by an identical spammer tend to have similar DOM trees and this tendency is quite effective in splog detection.
著者
井上 尚 岡田 龍太郎 北川 高嗣
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2011, no.17, pp.1-7, 2011-10-27

本稿では色から人間が受ける印象を定量化したデータベースを活用し,ユーザの画像作成時に印象という側面から情報を提示し、支援するシステムを提案する.我々はこれまでに言葉と言葉の意味的相関を計量する事のできるモデルである意味の数学モデルと,各種メディアデータの専門家の知識データベースを用いメディアデータから言葉とその重みのメタデータを抽出する Media-lexicon Transformation Operator を組み合わせる事により,各種メディアデータを統合的に取り扱う枠組みを提唱している.本稿ではカラーイメージスケールと呼ばれる色彩とそれから受ける印象の関係について述べた心理学の研究成果を専門家の知識データベースとして利用し,上記の手法を用いることで,ユーザの画像作成時にそれから受ける印象を動的に計算し,提示するシステムを作成する.本システムはブラウザ上で動作する Web アプリケーションで,線画の閉領域に対し色を対応させていくぬり絵のような形式をとる.まず最初にユーザが表現したい画像のイメージを任意の英単語の組み合わせとして入力させ,それらの単語群の持つ印象に対応する色をいくつか提示する.さらに画像作成時の支援として,ユーザが画像に色を付けると,画像から動的に計算し,それから受ける印象のリストをフィードバックする.これらのシステムにより,色による印象という専門家の知識を一般のユーザが意識することなく活用することが可能となる.This paper presents an implementation of drawing support application utilizing database for defining the relation between color and impression. We have realized Mathematical model of meaning that be able to compute semantic correlations between words and Media-lexicon Transformation Operator that be able to extract weighted words from media data using knowledge database for various media. Using both methods, we have realized a connecting method among heterogeneous media data. In this paper, we implement a drawing support application that suggest impression words computed by using method previously described with "Color Image Scale" (the database written about the relation between color and impression ). This application operates with browsing software. Users draw in monochrome line art. First,users input a combination of words as impression which users want to express, then suggested some colors corresoonding to this combination. And while users draw art,this application suggests a list of impression words which understand current art. This application implemente layman leverage specialist knowledge about color without regard for it.
著者
早川 豪 岡部 誠 尾内 理紀夫
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2011, no.16, pp.1-4, 2011-10-27

我々はソーシャルネットワークサービス (以下 SNS) 上の人間関係に着目し,SNS での友人の発言を解析してユーザにニュース記事を推薦する手法を提案する.解析には既存手法の様に TF-IDF を用いて興味・関心の強さを測ることに加え,友人それぞれに重要度を与えることで,よりパーソナライズした記事の推薦を可能にする.ユーザスタディでは,本手法を用いることでユーザ本人のみの発言からニュース記事を推薦した場合よりもクリック数が向上し,本手法がユーザにとってより興味・関心のある記事を推薦できることを実証した.We focus on human relations in a social network service, and propose a novel method to recommend news articles based on the analysis of microblogs of the user's friends. In addition to a conventional method that estimates user's interests using TF-IDF, our approach allows the user to specify an importance value to each friend, which enables the recommendation of more personalized articles. We perform a subjective user study to evaluate our method by measuring the number of recommended articles that each test user actually feels interested. We demonstrate that articles recommended by our method are more interesting to the user than articles recommended by just analyzing user's own microblogs.
著者
早川 豪 岡部 誠 尾内 理紀夫
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2011-DBS-153, no.16, pp.1-4, 2011-10-27

我々はソーシャルネットワークサービス (以下 SNS) 上の人間関係に着目し,SNS での友人の発言を解析してユーザにニュース記事を推薦する手法を提案する.解析には既存手法の様に TF-IDF を用いて興味・関心の強さを測ることに加え,友人それぞれに重要度を与えることで,よりパーソナライズした記事の推薦を可能にする.ユーザスタディでは,本手法を用いることでユーザ本人のみの発言からニュース記事を推薦した場合よりもクリック数が向上し,本手法がユーザにとってより興味・関心のある記事を推薦できることを実証した.
著者
曽原 寿允 堀 幸雄 今井 慈郎
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2010-DBS-150, no.11, pp.1-4, 2010-07-28

RSS リーダや Twitter に見られるような,カテゴリ分けされた大量の時系列データを閲覧する機会が増えている.これらの情報を俯瞰的に閲覧し,必要な情報を素早く入手することを目的とするインタフェースを提案する.
著者
曽原 寿允 堀 幸雄 今井 慈郎
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.11, pp.1-4, 2010-07-28

RSS リーダや Twitter に見られるような,カテゴリ分けされた大量の時系列データを閲覧する機会が増えている.これらの情報を俯瞰的に閲覧し,必要な情報を素早く入手することを目的とするインタフェースを提案する.The chance to inspect a large amount of categorized time series data shown in the RSS reader and Twitter has increased. We propose a interface to aim to inspect these information in the down shot, and to acquire necessary information quickly.
著者
加藤 慶一 秋岡 明香 村岡 洋一 山名 早人
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2010-DBS-151, no.22, pp.1-8, 2010-11-05

Twitter に代表されるミニブログは新たなメディアとして注目を集めており,そこでの発言の解析や,テレビや新聞等の他のメディアとミニブログとの相関関係の解析に対する需要が高まっている.しかし,ミニブログにおける発言は,特定の作品や商品に関する言及を多く含み,これらの多くは複合語であるため,そもそも形態素解析を正しく行なうことが難しい.そこで,ミニブログにおける出現頻度が急上昇した自立語,特に名詞に注目し,複合語で構成される固有名詞 (注目語) を取得する手法を提案する.提案手法により,ミニブログにおける形態素解析の精度向上が期待でき,ミニブログや他のメディアでの関連ある話題をより正確に追跡することが可能となる.
著者
倉門 浩二 大石 哲也 長谷川 隆三 藤田 博 越村 三幸
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2010-DBS-150, no.12, pp.1-8, 2010-07-28

近年,インターネットの普及に伴って,膨大な文書を閲覧することが可能となり,適切な文書を探すために検索エンジンを利用する機会が多くなっている.しかし,検索エンジンを利用しても,求める情報を得ることが難しい場合も多い.本研究は,Wikipedia のリンク情報やカテゴリ構造を解析することで,検索クエリの関連語を抽出し,検索結果の適切なリランキングを行うことを目的としている.
著者
高久 雅生 江草 由佳
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2010-DBS-150, no.14, pp.1-6, 2010-07-28

学術論文との出会いを促すツール 「ふわっと関連検索」 を提案する.国立情報学研究所が提供する論文データベース CiNii API を対象とした検索ツールを通じて,その有効性を示す.本手法の特長は,類似文書検索機能をもたない従来型の論文データベースに対して,特徴ベクトル抽出と検索クエリ発行方法を工夫することにより,簡易的な類似文書検索を実現する点にある.本稿では,新聞記事サイトに対する評価実験と検索結果例の分析を示し,論文との新たな出会いを得るための検索ツールの可能性を示す.
著者
カンウィパーラートサムルアイパン 中村 聡史 渡辺 知恵美
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2010-DBS-150, no.15, pp.1-8, 2010-07-28

日本では料理や味覚を擬音語,擬態語を表すオノマトペを用いて 「ふわふわケーキ」 のように表現することが多い.そこで我々は,オノマトペを利用した料理レシピ推薦システムの開発をしている.これまで,オノマトペとレシピ用語の一対一の関連を求めてオノマトペをキーワードにしてレシピを検索するシステムを開発した.今後は,複数の用語やオノマトペと用語の組合せでも検索できるようにすべきである.そこで,本研究はオノマトペと用語の集合の関連を求め,これらの結果に基づいた検索システムのインターフェースを提案する.