著者
落合 桂一 赤塚 裕人 山田 渉 寺田 雅之
雑誌
研究報告データベースシステム(DBS) (ISSN:2188871X)
巻号頁・発行日
vol.2020-DBS-172, no.1, pp.1-5, 2020-12-14

台風や大雨などの自然災害が激甚化している.災害規模が大きくなるほど災害規模の把握に時間を要し,初動対応が遅れる可能性がある.そこで本研究では,リアルタイムな人口変動のデータを利用し災害規模を推定することを提案し,推定に有用な特徴量の検討を行う.
著者
片山 太一 芳中 隆幸 宇津呂 武仁 河田 容英 福原 知宏
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2009-DBS-149, no.19, pp.1-8, 2009-11-13

本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.
著者
佐藤 克矢 山田 浩史
雑誌
研究報告データベースシステム(DBS) (ISSN:2188871X)
巻号頁・発行日
vol.2017-DBS-165, no.16, pp.1-6, 2017-09-11

KVS は高性能さやスケーラビリティの確保のしやすさから多くのサービスで利用されている.KVS の構成要素として Log-Structured Merge Tree (LSM-Tree) が広く利用されている.LSM-Tree は write-intensive なワークロードに適しており,近年のアクセスパターンに適しているためである.しかし,既存の LSM-Tree では PCIe SSD ような高速な I/O デバイスを有効に活用することはできない.LSM-Tree では Disk への書き込みはコンパクションをしながら行われるが,その処理の並列性が乏しいため,高速 I/O デバイスの帯域を活用することができないためである.そこで,本論文では PCIe SSD のような高速 I/O デバイスを想定し,LSM-Tree における I/O 帯域利用の高効率化手法を提案する.本論文では,Key の範囲や DB 全体に対してロックを取得せず,関連する各レベルのコンパクションをパイプライン実行する.提案手法を RocksDB (4.10.0) をベースとして実装を行い実験,評価を行った.既存の LSM-Tree を用いた RocksDB と比較し提案手法において約 10% のスループットの向上を達成した.
著者
服部 祐基 灘本 明代
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2011-DBS-153, no.24, pp.1-8, 2011-10-27

近年のインターネットの普及により,インターネット上には様々な情報が存在している.その結果認知度や知名度が低い情報が見つけにくいという問題がある.そこで本研究では認知度や知名度が低く見つけにくい情報をマイナー情報とし,このマイナー情報を検索し提示する手法の提案を行う.本論文ではマイナー情報の検索の第一歩として検索対象ドメインをスポーツに絞り,Wikipedia からマイナースポーツを検索する手法の提案を行う.具体的には,ユーザの興味や関心のあるスポーツを入力とし,それと類似し且つマイナーであるスポーツをたとえ表現に基づく記事検索手法と関連性に基づく記事検索手法の 2 つの手法を用いて検索を行う.ユーザの興味や関心のあることから検索を行うことによってマイナー情報を見つけやすくすることを本研究の目的としている.
著者
石川佳治
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.37, pp.1-8, 2009-03-27

本稿では,2009年3月8日から10日に,静岡県掛川市 「ヤマハリゾートつま恋」 にて開催された 「第1回データ工学と情報マネジメントに関するフォーラム (DEIMフォーラム2009)」 についての報告を行う.
著者
平澤 真大 小川 祐樹 諏訪 博彦 太田 敏澄
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2011-DBS-153, no.13, pp.1-8, 2011-10-27

インターネットの普及によって,ニコニコ動画のような動画共有サイトの需要が高まり,結果多くの動画コンテンツが蓄積されている.これら蓄積された動画コンテンツの中には多くの人には知られていないが,視聴した際に多くの人の興味・関心が湧くコンテンツが多く埋もれていると考える.我々はソーシャルノベルティのある動画を 「社会的には知られていないが,より多くの人が興味・関心を持つコンテンツ」 と定義し,ソーシャルノベルティのある動画を発見するため 「もっと評価されるべき」 タグに注目した.本稿ではソーシャルノベルティのある動画発見のため,「もっと評価されるべき」 タグの分析と,それを用いた機械学習の精度分析の結果を報告する.
著者
石井 裕志 馬 強 吉川 正俊
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.10, pp.1-8, 2009-11-13
参考文献数
10
被引用文献数
2

人々のより深いニュース理解を支援するシステム作成のために,事象間の因果関係をネットワーク構造を用いて表現する手法を提案する.我々はこれまで,原因事象を始点ノード,結果事象を終点ノードとしたエッジラベル付き有向グラフとして因果関係ネットワークを表す TEC モデルを提案してきた.本稿では,日本語文法の SVO 構造に着目し,ノードの保持するキーワードのうち因果関係を含む文節から得られるキーワード (事象キーワード) について改良し,因果関係を含む文節から得る主語 (Subject),動詞 (Verb),目的語 (Object) の 3 属性を事象キーワードとする手法を提案する.因果関係ネットワークを構築するために類似した事象を表すノード対をマージするが,ノード間の事象キーワードを属性ごとに抽象概念レベルで比較することで,類似した事象のノード対を発見する.また,記事タイトルに含まれる語を利用してトピックの類似する記事集合間だけでマージ計算を行い,計算量を減らす手法を提案する.また,実際の記事から因果関係を抽出してマージを行い,トピックの類似する記事間集合だけでマージ計算を行っても精度や再現率が低下しないことを確かめた.In this paper, we propose a novel Topic-Event Causal relation model (TEC model) and describe a method to construct a Causal Network in a TEC model to support understanding of news. In the TEC model, causal relations are represented by an edge-labeled directed graph. A source vertex represents the cause of an event, and a destination vertex represents the result of that event. In the model, each vertex includes two types of keywords: topic keywords, which describe topics, and event keywords, which describe events. Using the SVO structure of Japanese, we compose event keywords as three words(Subject, Verb, Object). If each concept of event keywords is equal between two vertcies, we merge the verticies, which represent the similar event. In the merging calculation, Using topic keyword decrease computational complexity. A preliminary experiment of vertices merging to assess the validity of the proposed method demonstrated its usefulness.
著者
尾﨑弘明 新妻弘崇 太田学
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.14, pp.1-7, 2013-11-19

英語を母語としない日本人には英語の冠詞の適切な使い分けは難しい.そこで我々は,類型化した冠詞の用法に重みを付与することで,冠詞を含むフレーズの検索結果数と冠詞の用法を組み合わせたスコアを算出し,それを基に冠詞を修正する手法を提案した.しかし,冠詞の用法と検索結果数を組み合わせて適切に冠詞を判断することは難しく,改善の余地があった.そこで本稿では,検出した冠詞の用法と検索結果数を素性として機械学習により冠詞を判別する方法を提案する.また実験により,両手法による冠詞誤りの修正性能を比較する.
著者
澤井 里枝 有安 香子 藤沢 寛 金次 保明
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2010-DBS-151, no.43, pp.1-8, 2010-11-05

近年,放送予定番組の中からユーザの好みに合った番組を推薦する手法が多数提案されている.従来の手法では,番組の視聴履歴やWebの閲覧履歴などを収集することでユーザの好みを学習し,推薦する番組を判定するものが多かった.しかし,そのような履歴データは,テレビをあまり見ていないユーザや,個人情報を公開しないユーザなどからは収集できない.さらに,本人の履歴を利用する手法では,新しい種類の番組や嗜好の変化への対応が困難という問題があった.そこで本研究では,ソーシャルネットワークサービス(SNS)からユーザどうしの関係や他ユーザの書込みを取得し,協調フィルタリングにより番組推薦する手法を提案する.SNSを利用することで,履歴データやWebへの書込みが取得できないユーザも対象とすることが可能となる.また本手法では,単に本人の好みに合った番組を推薦するだけでなく,流行の番組や友人が視聴している番組などユーザが知らなかった番組も推薦する.
著者
福元伸也 渕田孝康
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2014, no.28, pp.1-5, 2014-11-11

近年,ビッグデータと呼ばれる大規模データから有益な情報を抽出しようとする試みが広く行われており,テキストデータの解析に関する多くの研究がなされている.本研究では,シソーラスの分類語彙表を用いて,単語の特徴ベクトルである共起行列を生成する手法を提案する.出現単語のみによる共起行列を,単語の意味を考慮した分類語に変換することにより,共起行列の次元数が増大するのを抑えることができ,単語の特徴ベクトルをより的確なベクトルとして表現できる.また,得られた共起行列から分類を行うための学習器には,アンサンブル学習の 1 つであるランダムフォレストと大規模データに対して高度な分析が可能な機械学習フレームワークである Jubatus を用いた.実験では,ニュース記事のカテゴリ分類を行い,複数の学習アルゴリズムについて検証した.
著者
荒牧 英治 久保 圭 四方 朱子
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2014-DBS-159, no.23, pp.1-6, 2014-07-25

言語能力は人生における経験の結晶であり,加齢によって損なわれることがないとされる.しかし,その一方で,文法能力など,一部の能力の加齢による低下が示されることもある.このように,老化と言語能力の関係については不明な点が多い.この原因は,次の 2 つによるところが大きい.まず,研究対象である高齢者から大規模なデータを得るのが困難であること.次に,言語はさまざまな能力の総体であり,調査ごとに測っている言語能力が異なることである.そこで,本研究では,Web 上の文章を利用する.まず,50 代から 80 代の高齢者や小中学生,第二言語習得者,認知症患者のブログや作文を集めた.また,測定に関しては,語彙に関するものや構文に関するものなど,さまざまな指標を用いた.この結果,高齢者は,使う言葉の種類が減る可能性があること,さらに,難易度の高い言葉から使用頻度が減ることが明らかになった.この知見を応用することによって,老化や認知症の早期発見の可能性があり,今後の応用が期待される.
著者
西村章宏 土方嘉徳 三輪祥太郎 西田正吾
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2014, no.14, pp.1-6, 2014-07-25

マイクロブログサービスの 1 つである Twitter では,その時々で話題になる政治家や芸能人など有名人に関する一般ユーザの発言を豊富に得ることができる.さらに近年では,SNS から得られる評判情報をマーケティングやその他サービスに応用しようという試みが活発に行われている.そこで本研究では,Twitter から得られる評判情報のうち,一般ユーザの有名人に関する発言とその発言を行ったユーザのプロフィール等に着目する.これらの各情報源から得られるデータに対し,抽出の妨げとなるノイズへの前処理を経て,一般ユーザの観点が反映された特徴量であるトピックの抽出を行う.そして得られたトピックの分布を元に人物の類似関係を獲得し,それを基に各人物を平面上に配置することで,人物関係の可視化を行う.この可視化結果に対しては使用した情報源毎に妥当性と発見性に着目して特徴の分析を行う.
著者
加藤 龍 大島 裕明 山本 岳洋 加藤 誠 田中 克己
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013-DBS-157, no.16, pp.1-6, 2013-07-15

本研究では,クエリとしてある目的が与えられた際に,その目的を達成するために必要なタスク集合をウェブから発見するタスク検索を提案する.本稿では,タスク検索の第一歩として,入力クエリを効果的にクエリ拡張することで,元のクエリでは発見不可能なタスクを含んだウェブページを収集する手法について提案する.提案手法では,検索連動型広告に着目し,動詞の出現パターンを用いてタスクに関連した動詞を抽出することで,クエリ拡張を行う.
著者
奥野峻弥 浅井洋樹 山名早人
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2014-DBS-159, no.12, pp.1-6, 2014-07-25

従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.
著者
尾形 篤史 木村 昌臣
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013-DBS-158, no.7, pp.1-6, 2013-11-19

CAP 定理は,2000 年に Eric A. Brewer が提唱した定理である.CAP 定理では,分散システムが持つべき 3 つの性質 (一貫性・可用性・分断耐性) のうち,少なくとも 2 つしか同時に満たせないと述べている.2002 年に Seth Gilbert と Nancy Lynch が CAP 定理の証明を可用性が常に成り立つという前提で行った.しかし証明では CAP 定理の各性質が成り立つ状況を網羅的に示しておらず,様々な分散システムに対して CAP 定理が成り立つことを示していない。また,CAP 定理の各性質は論文によって定義が異なり,曖昧であるという問題がある.そこで,本研究では,CAP 定理の各性質を厳密に定義するため,各性質の条件式をグラフ理論の隣接行列を基に定式化する.そして,シミュレーションによって分散システムを網羅的に検証し,CAP 定理の各性質が成り立つ状況の検討を行い,CAP 定理の一貫性と可用性,一貫性と分断耐性,可用性と分断耐性が成り立つ分散システムの条件を検討する.
著者
西 友規 山口 実靖
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.10, pp.1-6, 2012-12-05

動画共有サービスが普及し,それらの Web サイトには多くの動画がユーザによってアップロードされ,共有されている.多くの動画共有サイトですでに動画検索機能が提供されているが,動画共有サイトの普及と重要性の高まりを受け検索精度のさらなる向上は重要な課題の一つと考えることできる.本稿では, Web コミュニティの抽出手法と,ユーザが公開している動画リストの 2 点に着目し,これらにもとづく動画検索手法を提案する.本手法では,動画リストによる動画の登録を, Web コミュニティ抽出における Web ページから Web ページへのリンクと類似と考え, Web コミュニティ抽出手法を動画共有サイトに対して適用する.これにより動画共有サイトから動画コミュニティの抽出を行い,抽出された動画コミュニティを検索結果ととらえ動画検索を行う.提案手法を既存の検索手法と比較した結果,提案手法が既存手法より高い精度で動画の検索を行うことが可能であり,提案手法が有効であることが確認された.A large number of vides files are shared in video sharing services in the internet. In this paper, we propose a video community extraction method based on web community extraction methods, which consist of fan pages and center pages, and TF-IDF. With our proposed method, a video and a video list are considered as a center page and a fan page in web community extraction, respectively. For evaluation, we executed video search based on the proposed video community extraction and compared its search result with that of other methods. Our experimental results have shown that the proposed method have been able to provide better search results than other methods.
著者
旭 直人 山本 岳洋 中村 聡史 田中 克己
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.4, pp.1-8, 2009-11-13

本論文では,ユーザが入力した 2 つのオブジェクトの間にあたるオブジェクトを発見する手法を提案する.例えば,桶狭間の戦いと本能寺の変の間に起こった出来事を知りたい,2 つの知っている本の中間の難易度を持つ本を発見したい,といったような状況は良くある.しかし,従来の検索エンジンでは,こうしたオブジェクトを発見することは難しい.そこで本研究では,2 つの入力の間に位置するようなオブジェクト (補間オブジェクト) を発見するシステムについて述べる.また,検索エンジンを利用し,語の出現位置に注目することで補間オブジェクトを自動的に発見する手法を提案する.最後に,評価実験により提案手法の有用性を示す.We propose a method for finding intermediate objects between two objects that a user inputs. For example, there are many situations such that he/she wants to know an event between "the Battle of Okehazama" and "Honnoji Incident", or that he/she wants to find a book that has intermediate level between two books he/she knows. However, it is difficult to find such intermediate objects by conventional search engines. First, we describe a system that find intermediate objects between two inputs. Second, we propose find intemediate objects automatically using positions of words. Finally, we show the results of our experiments and evaluate the effectiveness of our method.
著者
小河 真之 原田 史子 島川 博光
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.17, pp.1-8, 2010-07-28

現在インターネット広告では,様々な広告提示手法が用いられている.しかし,消費者が知りたいと思う商品の特徴や消費者が好む広告のデザインやメッセージを考慮していない.また,消費者の状況を考慮できておらず,最適な広告が提供できていない.本論文では,消費者の購買行動時における情報探索行動を考慮し,消費者の状況と消費者が必要とする商品情報とデザインおよびメッセージを個人に合わせた,インターネット広告の構成手法を提案する.本手法では消費者の情報収集行動に着目し,消費者の状況を把握する.また,分類された広告の商品情報とデザインを用いて,消費者の特性を抽出する.そして,これらの定量的な指標で表された消費者の状況や特性をもとに,消費者一人ひとりに合わせた広告を構成する.本手法により,各消費者に説得力のある広告メッセージが選択でき,各消費者に合わせた個別広告が提供できる.Recently, the internet advertisement has a lot of presentment. However, the internet advertisement in today does not consider the characteristics of the product, design and message of advertisement which a consumer is interested in. Moreover, it does not consider a consumer's situation. Therefore, the internet advertisement in today cannot present the consumer the best advertisement. In this paper, we propose a method to create an individual advertisement about a product based on each customer's interest, situation, and information on the product. In this method, the consumer's situation is graspen by the consumer's information gathering. The consumer's characteristic is extracted with classified information of the product and designs. Therefore, an advertisement is created by combining the classified information based on the consumer's characteristic and situation. Accordingly, the system is useful to give a consumer an opportunity of examination for buying products and increases possibility of buying.
著者
尾形 篤史 木村 昌臣
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.7, pp.1-6, 2013-11-19

CAP 定理は,2000 年に Eric A. Brewer が提唱した定理である.CAP 定理では,分散システムが持つべき 3 つの性質 (一貫性・可用性・分断耐性) のうち,少なくとも 2 つしか同時に満たせないと述べている.2002 年に Seth Gilbert と Nancy Lynch が CAP 定理の証明を可用性が常に成り立つという前提で行った.しかし証明では CAP 定理の各性質が成り立つ状況を網羅的に示しておらず,様々な分散システムに対して CAP 定理が成り立つことを示していない。また,CAP 定理の各性質は論文によって定義が異なり,曖昧であるという問題がある.そこで,本研究では,CAP 定理の各性質を厳密に定義するため,各性質の条件式をグラフ理論の隣接行列を基に定式化する.そして,シミュレーションによって分散システムを網羅的に検証し,CAP 定理の各性質が成り立つ状況の検討を行い,CAP 定理の一貫性と可用性,一貫性と分断耐性,可用性と分断耐性が成り立つ分散システムの条件を検討する.CAP theorem proposed by Eric A. Brewer in 2000. CAP theorem tells that it is impossible for a distributed system to concurrently have the following three properties: consistency, availability, and partition-tolerance. In 2002, Seth Gilbert and Nancy Lynch proved this theorem. However, in their proof. they assumed as system always guarantee availability. Namely, they did not discuss that every distributed system held CAP theorem. Moreover, in many other studies, three properties were not given a clear definition and were discussed ambiguously. In this study, we gave these three properties mathematical definitions based on an adjacency matrix. Based on this, we conducted a simulation to verify whether CAP theorem holds in every distributed system. Finally, we discuss the requirement of a distributed system that satisfy CA, AP or CP.
著者
邱 起仁 櫨山 淳雄
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013-DBS-158, no.22, pp.1-6, 2013-11-19

本論文では,Twitter からニュース記事に関連する tweets を収集することを目的とし,Twitter の投稿とニュース記事の類似度の計算手法を提案する.Twitter の投稿には 140 文字という長さの制限がある.従来の TF-IDF 法だけでは比較的に短文である Twitter の投稿の特徴語を抽出するのが困難である.そこで本論文では,確実にニュース記事に関連する Twitter の投稿 (そのニュース記事への URL を引用する投稿) に出現した語は,同じニュース記事を言及する他の Twitter の投稿にも使用される可能性が高いと考え,それらの語を特徴語として抽出する.また,Twitter の投稿とニュース記事の内容類似度のみではなく,時間類似度も考慮することで,類似度計算の精度を向上させる.