著者
平澤 真大 小川 祐樹 諏訪 博彦 太田 敏澄
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2011, no.13, pp.1-8, 2011-10-27
被引用文献数
1

インターネットの普及によって,ニコニコ動画のような動画共有サイトの需要が高まり,結果多くの動画コンテンツが蓄積されている.これら蓄積された動画コンテンツの中には多くの人には知られていないが,視聴した際に多くの人の興味・関心が湧くコンテンツが多く埋もれていると考える.我々はソーシャルノベルティのある動画を 「社会的には知られていないが,より多くの人が興味・関心を持つコンテンツ」 と定義し,ソーシャルノベルティのある動画を発見するため 「もっと評価されるべき」 タグに注目した.本稿ではソーシャルノベルティのある動画発見のため,「もっと評価されるべき」 タグの分析と,それを用いた機械学習の精度分析の結果を報告する.Recently, the Web technology enables people to watch VoD services such as NicoNico Douga. However, there are so many video contents in the site that Not known but intersting, "Social-Novelty" videos are sunk in them. To support users to find interesting video sunk in NicoNico Douga, a recommendation system of "Social-Novelty" videos is proposed. Tags of contents rated as "would be higher rated" are analyzed, and found typical tags attached to such contents. This paper reports the result of analysis of the tag "would be higher rated", and precesion analysis of a classification of the machine learning using it for the recommendation system with "would be higher rated".
著者
松本 一則 服部 元 小川 圭介 橋本 真幸
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.22, pp.1-3, 2013-07-15

web サイトの内容や分野を表すジャンルコードを計算機で推定するジャンル推定技術がマーケティング分野で重要になってきている.一般的に同技術の場合,ジャンル推定に適した単語をあらかじめ求めておき,推定対象ページに現れるそれらの語の出現頻度を基とした特徴ベクトルでジャンル判定を行う.しかし必要な単語数は膨大で識別器の学習は通常困難である.そこで,情報量基準で選択した最小限の単語数でジャンル別 SVM を構築し,同 SVM の各識別結果から総合判定を行う 2 段階 SVM を実現した.さらにエラー識別に役立つ語を学習させた SVM を第 1 段に追加する工夫で精度を向上させた。Automatic genre estimation for specified web sites or web pages is important for web marketing. In general, bag of words (BOWs) extracted from specified web pages are inputted to the genre discriminator. However, the number of necessary words is huge for the discriminator. Thus authors propose genre-specific words extraction based on Information Criteria, and a practical 2-stage SVMs which are ensemble with genre-specific SVMs. We also show SVMs discriminating errors of another SVM improve the accuracy of the estimation.
著者
岩井一晃 鈴木優 石川佳治
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.2, pp.1-8, 2012-07-25

本研究では,Wikipedia における著者の役割を推定する手法の提案を行う.著者の役割とは,ある著者が有益な削除や追加,残存を行ったかどうかを指す.削除や追加,残存が有益であるかどうかは,自動的に判定することが困難である.そこで,多くの著者から削除対象となる記述があったとき,その記述を行った著者は悪質であると考える.また,多くの著者から残存対象であると考えられる記述があったとき,その記述を行った著者は有益であると考える.ところが,有益な編集を行う著者と悪質な編集を行う著者では,他の著者に対する影響は異なるものとなるべきであると考える.そこで本研究ではリンク解析手法のひとつである SALSA を著者の編集グラフへ適用することによって,著者の役割を推定する.SALSA を利用することによって,著者に対してハブとオーソリティを計算することができるため,高い精度で著者の役割が推定できると考えられる.In this research, we propose method that Estimating the Role of author in Wikipedia. The Role of author means author's delete or author's remain is advantageous or not. It is difficult estimating automatically author's edit is advantageous or disadvantageous. Thus, we consider that a description to be deleted from many authors, the author was its description considered to be disadvantageous. Also, we consider that a description is considered to be the target residual from many authors, the author was its description considered to be advantageous. In addition, We consider that advantageous editing Author gives effect to other authors and disadvantageous editing Author gives effect to other authors should be different. Thus, we apply graph editing of the author SALSA,which is one of the link structural analysis,to estimate the role of the author. By taking advantage of SALSA, it is possible to calculate the hub score and authority score to the author. Considered for this purpose, we can estimate the role of the author with high accuracy.
著者
カンウィパーラートサムルアイパン 中村 聡史 渡辺 知恵美
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.15, pp.1-8, 2010-07-28
被引用文献数
1

日本では料理や味覚を擬音語,擬態語を表すオノマトペを用いて 「ふわふわケーキ」 のように表現することが多い.そこで我々は,オノマトペを利用した料理レシピ推薦システムの開発をしている.これまで,オノマトペとレシピ用語の一対一の関連を求めてオノマトペをキーワードにしてレシピを検索するシステムを開発した.今後は,複数の用語やオノマトペと用語の組合せでも検索できるようにすべきである.そこで,本研究はオノマトペと用語の集合の関連を求め,これらの結果に基づいた検索システムのインターフェースを提案する.Japanese language is filled with onomatopoeic words, which describe sounds or actions like "click" or "bow-wow". Especially, when talking about foods, Japanese people frequently use onomatopoeic words to express vague taste or sense of the foods. There, we develop a system for searching recipes by using onomatopoeic words as the search keyword. We collected recipes from a posted recipe website, named "COOKPAD", and performed Japanese language morphological analysis. Then, we calculated relation between onomatopoeic words and other types of words. In this paper, we calculate association rules of them and used these rules to find matched recipes to recommend to the user.
著者
高橋公海 佐藤進也 松尾真人
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.24, pp.1-6, 2013-07-15

Web 上の blog 記事や Twitter などのテキストには,日常生活における人々の行動や出来事と,その繋がり (行動パターン) が記述されている.それらのテキストデータを元に行動パターンをモデル化することが出来れば,人間の行動や思考の予測が可能となり,ユーザに対して状況に即した行動提示 (ナビゲーション) や推薦,といったコンテキストアウェアサービスへの応用が見込まれる.とり得る行動は状況により異なるため,モデル化する際にはどのような状況において成立する行動パターンであるかを考慮することが望ましい.そこで本稿では,blog 記事集合を対象として,キーワードに関連する状況毎に文書集合をクラスタリングし,文書集合全体から推定した行動パターンの頻度と,クラスタ内の文書集合から観測される頻度の差を利用して重み付けすることにより,状況に依存した行動パターンを抽出する手法について検討を行った.実験では,本手法を用いて blog 記事集合から抽出した状況ごとの行動パターン例についても報告する.The ability to understand our daily behaviors has long been regarded as enabling a variety of useful applications(e.g. activity-based actuation, recommendation). In this paper, we present an approach to extract context-dependent human behavior models from weblogs. At first, we apply clustering method to weblogs, and then extract important behavior patterns from each cluster using word frequency. We estimated our method by experiment and made sure the effect of it.
著者
白木原 渉 大石 哲也 長谷川 隆三 藤田 博 越村 三幸
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2010-DBS-150, no.2, pp.1-8, 2010-07-28

情報検索エンジンでは最新の情報,特に流行している事柄を検索するのは難しい.近年,Twitter が急激に普及し始めた.Twitter では,世の中で流行している事柄 (流行語) について,多くの人が発言する傾向がある.Twitter のユーザーの中でも特に流行に敏感な人 (trendspotter) を知ることができれば,その人の発言に注目することで,流行している事柄についての情報をさらに簡単に手に入れることができる.本システムを実現する手法として,一般のバースト検出アルゴリズムを用いたが,これが Twitter の発言に対しても利用できることがわかった.さらに,本システムによって,5277 人のユーザーの中から,24 人の trendspotter を抽出することに成功した.
著者
原口 和貴 大塚 真吾 荒牧 英治 若宮 翔子 灘本 明代
雑誌
研究報告データベースシステム(DBS) (ISSN:2188871X)
巻号頁・発行日
vol.2019-DBS-169, no.6, pp.1-6, 2019-09-03

これまで我々は一つのニュース記事から漫才台本を自動生成する手法を提案してきた.本論文ではヘッドラインニュースを構成する複数のニュース記事から漫才台本を自動生成する手法の提案をする.ニュース記事を漫才台本にする際,ネガティブなニュース記事を漫才にすることは不適切である.そこで本論文ではヘッドラインニュースの中からポジティブ/ニュートラルのニュース記事を抽出しこれら複数のニュース記事から一つの漫才台本を自動生成する手法の提案をする.
著者
山中 努 土方 嘉徳 西田 正吾
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.22, pp.1-8, 2009-11-13

近年 Web 上で使用できる地図アプリケーションや GPS 機能が付いた携帯電話が普及しつつある.また twitter や場 log のように GPS 情報を付加して周囲の状況をテキストで送ることができるサービスが登場しつつある.これらにより時空間情報を伴うテキストデータが増加しつつある.この大量の情報をうまく活用できればイベント会場の管理者や災害時における自治体のオペレータのように,ある特定の地域の状況を把握する事が必要となる業務において,より迅速で正確な状況把握を実現する事ができると思われる.そこで本研究では時空間情報を伴う大量のテキストデータを業務上必要な観点から要約し,その情報を地図上で可視化するシステムを設計する.Map applications on the web or mobile phones with GPS capabilities have become widely used. Furthermore, users can send surrounding circumstances via email with GPS information by using twitter. So text-data with temporalspacial infomation is increasing. In business that they have to understand local conditions like venue administrator or operators of local governments in disaster, they can use this information for understanding circumstances faster and more accurately. In this study, we extract important information for this business from large amounts of text data with temporal-spatial information and design a system that visualizes the information on the map.
著者
得丸 公明
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2011-DBS-153, no.12, pp.1-8, 2011-10-27

ヒトの言語は,音節というデジタル符号によって,哺乳類の音声通信がデジタル化したものだ.ヒトの脳や身体の基本構造はヒト以外の動物となんら変わらず,違いはデジタル信号の入出力に最適化した聴覚言語野と運動言語野,喉頭の降下した発声器官と大きな脳容量に尽きる.外界からの刺激や事物・事象の記憶に,作業記憶内で感情や真偽のタグ (識別子) を付して長期保存した記憶の体系が意識であり,デジタル符号のタグを使うことがヒトの特徴である.意識は行動や判断の基準となる論理回路を提供し,論理にもとづく刺激と記憶の演算が思考である.ヒトの特徴は,思考結果に独自の名前をつけて,思考回路に再投入できることにある.それによって抽象的な科学概念ももてるようになった.ヒトが賢いのではない.音節という信号がヒトの知性を高める潜在力をもっているだけだ
著者
上里和也 奥谷貴志 浅井洋樹 奥野峻弥 田中正浩 山名早人
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.21, pp.1-8, 2013-11-19

Twitter のユーザ数が増加を続ける一方で,不正に ID 及びパスワードを入手され,他人によってツイートを投稿される被害が増加している.これに対し,我々はアカウント乗っ取りによって投稿されるメッセージの一部であるスパムツイートの検出手法を提案し,8 割程度の正答率を得ている.同手法では特定の単語が含まれているスパムツイートを検出対象とし,検出の有効性を示している.本研究では同検出対象を広げ,アカウントの所持者以外が投稿したツイート全体を 「乗っ取りツイート」 として定義し,これを検出する手法を提案する.また本研究では,以前提案した手法に対してパラメータの再調整を行うと同時に,頻繁に用いるハッシュタグの種類及びリプライを送る相手が各アカウントにおいて特徴的であることを利用し,F 値の向上を図った.100 アカウントに対して評価実験を行った結果,我々が提案している従来手法と比較し,F 値を 0.1984 向上させ F 値 0.8570 を達成した.
著者
朝永聖也 中島伸介 稲垣陽一 中本レン 小倉僚 張建偉
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.1, pp.1-8, 2013-11-19

有望な流行語候補を早期に発見する手法の一つとして,流行語先読みブロガーの発見を目指している.この流行語先読みブロガーの発見を行うために,過去の流行語に対してどの程度早くから言及していたのかを分析することによる,ブロガー先読み度判定手法を提案する.具体的には,その流行語が語り始められた時点を推測し,その時点から流行のピークを迎えるまでの期間において,対象となる流行語に関してどの程度早期に言及していたのかを評価する.本稿では,提案する先読み度判定手法について説明すると共に,本手法で必要となる流行語候補のカテゴリ分類について評価を行ったので,報告する.The purpose of this study is to discover good predictors in blogosphere, as one of methods to detect promising buzzwords. In order to find good predictors, we propose a method for evaluating bloggers' buzzword prediction ability by analyzing how early bloggers mentioned past buzzwords. Concretely, we predict the time when a buzzword began to be mentioned, and evaluate how early the buzzword was mentioned in the period from the beginning time to the peak. In this paper, we describe the analysis method of bloggers' buzzword prediction ability, and report the evaluation on buzzword classification.
著者
海江田 隆博 黄 宏軒 川越 恭二
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2011, no.14, pp.1-10, 2011-10-27

Twitter の Hashtag によりイベント情報を得る際に,Hashtag 間に相互関連がないため適切なイベントが得にくい.そこで,Hashtag を構造化した多次元空間を持つ contextHashtag を提案する.contextHashtag の多次元空間内で既存 Hashtag を領域として自動的に位置付けることで,過去イベントと類似したユーザが望む未来イベントを領域間類似性により求めることが可能となる.contextHashtag を用いたイベント推薦システムの試作について説明する.When Twitter users can obtain event information using Hashtags on Twitter, Hashtag based event retrieval can not meet the user expectation due to Hashtag property where they are no mutual relation between Hashtags. In order to solve this problem, we propose contextHashtag in its a structured Hashtags space with the multidimensional space. Each of event Hashtags can be automatically located as a region in the contextHashtag multidimensional space. Similarity between Hashtags can be easily calculated in the contextHashtag multidimensional space. As a result, Twitter users can get new events based on the contextHashtag. We also explain an event recommendation prototype of system using the contextHashtag.
著者
中嶋勇人 新妻弘崇 太田学
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.28, pp.1-6, 2013-11-19

近年,スマートフォンで位置情報付きの情報を発信することが増えており,その中には,旅行者にとって非常に有益な情報が存在する.本研究では,短文投稿サイト Twitter において,旅行者のツイートに頻繁に現れる特徴と,Foursquare と Instagram のサービスを用いて,観光ツイートを収集し,さらに旅行者のタイムラインから観光ルートを抽出した.収集した観光ツイートは,手がかり語や品詞の特徴から,「食事」,「景観」,「行動」 の 3 つに分類し,それを用いて,旅行者の好みに合わせた観光ルートを推薦する手法を提案する.実験では,収集した観光ツイートの精度と観光ツイートの分類の精度を評価し,抽出した観光ルートと推薦した観光ルートについて考察を述べる.
著者
新居雅行
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012-DBS-155, no.14, pp.1-8, 2012-11-12

Web アプリケーション開発では,クライアントサイドの JavaScript を利用するスタイルが積極的に行われるようになった.本論文では,クライアントサイドで JavaScript を活用した Web アプリケーションにおける,認証認可処理の実装方法について検討を行う.通常の Web アプリケーションでは,ログインページや認証,認可の処理をすべてサーバ側で行う.一方で JavaScript を活用した Web アプリケーションでは,サーバとクライアントの双方での処理分担を設計する必要がある.本論文では,ページ遷移を引き起こす事なく認証認可の処理を実現するための,クライアントとサーバサイドでの処理割当について考察を行い,その割当に基づき効率的に Web アプリケーションを開発するためのフレームワークを開発した.クライアント側に処理機能があることから,その機能をアプリケーション開発者が意図していない利用をする可能性があり,その点から考えられる対策についても検討した.
著者
江谷 典子
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2014, no.27, pp.1-6, 2014-11-11

近年の新薬開発では,既存薬の作用から新たに薬効を見つけ出し,別の疾患に対する治療薬として再開発する創薬研究が注目を浴びている.そこで,大規模なデータの集合体に対しての手法の適用によるモデルを作成することで,何らかの新事実・関係を発見するという立場から,ビッグデータを応用した創薬 (Drug Discovery) データマイニングの研究に取り組んでいる.本研究では、化合物とタンパク質の相互作用データベース STITCH4.0 に収録されているデータと副作用データベース SIDER 2 に収録されているデータから薬と副作用の関係を網羅的に予測できるモデルを構築し提案する.PLS 回帰式モデルを用いた判別分式を導入することで,副作用発症率分類の特徴抽出を可能にし,2 値化することができる.この 2 値化により,化合物とタンパク質の組み合わせにおける副作用発症率を 「41%~100%」「0.1%~40%」 の 2 段階に分けることを示す.さらに,サポートベクターマシン (SVM) を用いて,副作用の発症率をこの 2 段階で予測することができることを示す.In the recent new drug development, the research on drug discovery, that its indication is newly found out from the approved drugs and a new drug is redeveloped with the new indication as a new therapeutic drug for a different disease, has attracted attention. I have researched and developed data mining for drug discovery as a big data application from the standpoint that a model is developed by the methods for collection of large-scale data in order to discover some new facts and relationships between data. In this paper, a model that can predict comprehensively the relationship of side effects and drugs will be proposed from the data on the side effects database "SIDER 2" and the data on the chemical-protein interaction database "STITCH4.0". This paper describes that the feature of side effect incidence is extracted and presented as two categories by introducing discriminant analysis using PLS regression model, and that the chemical-protein interaction is classified into two stages of "41%-100%" and "0.1%-40%". Moreover, it describes that support vector machine (SVM) can predict side effect incidence by these two stages.
著者
宋 洋 小山 貴之 町田 史門 嶋田 茂
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.13, pp.1-6, 2012-12-05

SNS への投稿増加に伴うプライバシー侵害の問題の頻出に対して, SNS 各社では各種プライバシー関連の施策が行われているが十分ではない.これは,プライバシー施策が SNS 各ユーザの解釈にゆだねられ,そのプライバシーの解釈がコミュニティ毎に異なる上にそれが時間により変化するためと考えられる.そこで我々はこのコミュニティ抽出のため,過去 4 年間に及ぶ多量のツイートアーカイブを対象にした単語解析と,その頻度時系列から雑音となる時事と相関する記事を排除し,プライバシーに敏感なユーザによるツイート記事を抽出し解析した.これにより,共通のプライバシー意識を持つコミュニティの特性とその傾向を把握することができた.Recently, people can easily post to the SNS. Because of this, privacy invasion caused by careless posting is increasing. Privacy policy is frequently changing by the SNS, it is not enough to protect their privacy. Because, people have own interpretation of privacy. However, the interpretation of privacy is different from one community to another. Moreover, its interpretation changes over time. We analyzed Tweet archive with words and time series analysis for excluding related current news from large amount of SNS archive for the past four years. onsequently, we found trends and different community characteristics in our analysis.
著者
高橋 徹 小林 亜樹
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.26, pp.1-8, 2009-11-13

Web 情報システムにおける情報推薦では,協調フィルタリング技術がしばしば用いられている.本稿では,その推薦精度が必ずしも高くない理由について分析する.分析には,MovieLens Data Set を用いる.協調フィルタリング技術の,類似した嗜好を持つユーザは,未知の商品などのアイテムにおいても同様の嗜好を示す,という仮定がどの程度正しいか分析する.その結果,この仮定が成り立たない場合が相当程度ある事を明らかにし,また,cold-start 問題として知られる,嗜好が蓄積されていない状況と似ている事を指摘する.その後,これらの問題に対処するための考察を進める.Collaborative filtering techniques are often used to Information recommendation in the Web information system. In this paper, the reason why the recommendation precision is not always high is analyzed by using the Movie Lens data set. We think that collaborative filtering technique is based on a fundamental assumption. It is, if users had similar preference in an item set, it will be same as in other item sets. We show that the assumption is not approved in a respectable degree with similarity distribution histogram. Moreover, it is pointed out that the situation is similar to the cold-start situation, because of the same situation about user preference data is not available to collaborative filtering. Afterwards, it is considered to deal with these problems.
著者
桑原 雄 稲垣 陽一 草野 奉章 中島 伸介 張 建偉
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.18, pp.1-3, 2009-11-13
被引用文献数
11

近年,ブログや SNS 等,ユーザの生活体験が直接反映されたコンテンツが数多く配信されるようになってきている.我々は,これらのコンテンツを解析することで,ユーザの生活体験に基づいたシソーラスを半自動的に作成するシステムの研究開発を行っている.本稿では,このシステムを用いて作成したシソーラスを用いて,マイクロブログ上でユーザが発信した情報を分析し,特徴的なトピックやそれに対する感情を抽出することで,興味,志向が類似したユーザを発見する方法,及び類似ユーザを推薦する手法を提案する.Recently, the internet has experienced an explosion of personal media from social media sites such as blogs, Facebook, Twitter and so on. Much of this persona media describes a person's life experiences and events, ranging from the mundane to the intriguing. As it is such, we are developing a life experience thesaurus system which can automatically recognize the life experiences based upon textual analysis. In this paper, we describe the use of this thesaurus in our micro-blogging user recommendation system. This system analyzes user postings, extracting the topics and sentiments, and lastly recommends similar users.
著者
栗山 和子 神門 典子
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2009-DBS-148, no.19, pp.1-8, 2009-07-21

本稿では,Q&A サイトにおける質問と回答を分析し,質問に対して適切な回答を得るために考慮しなければいけない要素として,質問のタイプを提案する.本研究では,Q&A サイトに投稿された質問を人手で分析することにより,質問をいくつかのタイプに分類した.また,各タイプの質問を識別するために共通する特徴を抽出し,それを用いて質問を自動的にタイプ分けすることが可能かどうかを検討した.さらに,質問のタイプと質問者によって選択されたベストアンサーになんらかの関連がみられるかどうか考察した.
著者
内村 圭佑 灘本 明代
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2009-DBS-148, no.25, pp.1-6, 2009-07-21

「なぞかけ」 とは 「A とかけて B ととく.そのこころは C+D.」 という定型句に,ある程度の関連性を持った単語を当てはめて楽しむ日本に古くからある言葉遊びの一種である.本研究では Web を利用してこのなぞかけ文を自動生成するシステムを提案する.我々の提案する,なぞかけ自動生成システムは入力単語を A と D とし,各々に関連する単語 B と単語 C を自動抽出しなぞかけを生成する.具体的には,入力された単語 A (名詞) と単語 D (形容詞) から関連する動詞 C を Web より取得する.そして,その動詞と同音異字にある単語 C’ を用いて,それに関連する名詞 B を Web から取得する.単語 A と単語 B との意味距離を Wikipedia を用いて計り,この意味距離が離れているとき,なぞかけを生成する.