著者
川口 輝太 久保 遼馬 藤田 拓也 前田 竜冶 宇津呂 武仁 小林 彰夫 西崎 博光 河田 容英
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.22, pp.1-9, 2019-08-22

本論文では,テレビドラマ視聴者がドラマ視聴後にウェブ上で行うドラマ関連関心動向 ・感想 ・レビュー類の情報探索過程を支援することを目的として,ブログ ・ドラマ関連サイト等のウェブページからの情報収集 ・集約を行うウェブマイニング技術を提案する.具体的には,本論文では,BERT および Wikipedia を用いて,文単位での当該ドラマ関連判定および主観情報判定を行うとともに,文単位での判定結果に基づいて,ウェブページ単位での当該ドラマ関連判定および主観情報判定を行う手法,および,その評価結果について述べる.
著者
土井 俊弥 井上 祐輔 今田 貴和 宇津呂 武仁 河田 容英 神門 典子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

本論文では,ウェブ検索者の関心事項に着目し,検索エンジン・サジェストを情 報源としてウェブ検索者の情報要求観点を収集し,集約を行う手法を提案する. 特に,サジェストを用いた検索によって収集されるウェブページ集合に対してト ピックモデルを適用し,ウェブページのクラスタリングを行うことによって,ウェ ブページに対応付けられたサジェストの集約を行う.
著者
今田 貴和 井上 祐輔 李 雪山 宇津呂 武仁 河田 容英 神門 典子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

本論文では,検索エンジン・サジェストによって測定される関心事項の情報を最 大限に有効活用するタスクとして,特定商品ジャンルにおける製品・サービス等 の供給者である複数の企業の間で,検索における関心の度合いを比較するという タスクを設定する.そして,検索における関心の度合いが,実社会における市場 シェア統計との間でどの程度の相関を持つのかについて分析を行う.
著者
阿部 佑亮 中崎 寛之 横本 大輔 宇津呂 武仁 河田 容英 福原 知宏
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.24, 2010

本研究では,ブログ空間の情報や知識を類型化するための方式の一つとして, 「ブロガーの立場」に着目する.そして,事例研究として,「詐欺」,「イン ターネット犯罪」の分野を対象として,日英ブログサイトの収集を行い,ブロ グでの記述内容を被害者・ニュース記事引用・防止対策に類型化した結果を報 告する.さらに,それらの類型のうち,特に被害者によるブログ記事の自動収 集手法を提案する.
著者
久保 遼馬 藤田 拓也 宇津呂 武仁 小林 彰夫 西崎 博光 河田 容英
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2020, pp.1B5GS601, 2020

<p>本論文では,テレビドラマ視聴者がドラマ視聴後にウェブ上で行うドラマ関連関心動向・感想・レビュー類の情報探索過程を支援することを目的として,ブログ・ドラマ関連サイト・ツイッター等のウェブページからの情報収集・集約を行うウェブマイニング技術を提案する.本論文では,特に,テレビドラマ視聴者がドラマ放送期間中に,ツイッター上で行うドラマ関連の関心・感想の情報探索支援を行うことを目的とし,ツイートの収集・集約を行う手法を提案する.具体的には,ドラマに出演する主要な俳優や登場人物名を表すキーワード,および,それらのキーワードに対する感想を表す形容詞が共起するツイートを収集し,BERTを用いて,それらのキーワードと形容詞の間の感想関係の有無の判定を行う.実際に数百事例を収集し,人手で感想関係の有無を判定した訓練・評価事例を作成し,BERTのfine-tuningおよび評価を行ったところ,約70-80%の精度で感想関係の有無を同定することができた.</p>
著者
片山 太一 芳中 隆幸 宇津呂 武仁 河田 容英 福原 知宏
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2009-DBS-149, no.19, pp.1-8, 2009-11-13

本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.
著者
守谷 一朗 今田 貴和 宇津呂 武仁 河田 容英 神門 典子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

本論文では,検索対象に対して,検索エンジン・サジェストを通して収集され るウェブページの内容を集約・俯瞰するタスクにおいて,収集されるウェブペー ジ集合に対してトピックモデルを適用することにより話題の集約を行った結果 と,従来型の検索結果上位のスニペットとの比較を行い,トピックモデルを用 いた話題集約・俯瞰方式の有効性を評価する.
著者
片山 太一 芳中 隆幸 宇津呂 武仁 河田 容英 福原 知宏
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.19, pp.1-8, 2009-11-13
被引用文献数
1

本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.Spam blogs or splogs are blogs hosting spam posts, created using machine generated or hijacked content for the sole purpose of hosting advertisements or raising the number of inward of target sites. Among those splogs, this paper focuses on detecting a group of splogs which are estimated to be created by an identical spammer. We especially show that similarities of html structures among those splogs created by an identical spammer contribute to improving the performance of splog detection. In measuring similarities of html structures, we extract a list of blocks (minimum unit of content) from the DOM tree of a html file. We show that the html files of splogs estimated to be created by an identical spammer tend to have similar DOM trees and this tendency is quite effective in splog detection.