著者
片山 太一 芳中 隆幸 宇津呂 武仁 河田 容英 福原 知宏
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2009-DBS-149, no.19, pp.1-8, 2009-11-13

本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.
著者
片山 太一 小林 のぞみ 牧野 俊朗 松尾 義博
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第27回全国大会(2013)
巻号頁・発行日
pp.1F44, 2013 (Released:2018-07-30)

ユーザに合わせたシステム構築のためには、ユーザの知識を理解することは重要である。既存の研究では、人手で単語に難易度を付与し、その情報を利用してユーザの知識推定を行ってきた。しかし、専門性が高くなるとあるトピックには詳しいが他のトピックには詳しくないといったユーザもいるため、一般的な難易度のみを利用して知識推定を行うことは難しい。本研究では、トピック情報を利用することで、上記の問題を解決する。
著者
片山 太一 芳中 隆幸 宇津呂 武仁 河田 容英 福原 知宏
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.19, pp.1-8, 2009-11-13
被引用文献数
1

本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.Spam blogs or splogs are blogs hosting spam posts, created using machine generated or hijacked content for the sole purpose of hosting advertisements or raising the number of inward of target sites. Among those splogs, this paper focuses on detecting a group of splogs which are estimated to be created by an identical spammer. We especially show that similarities of html structures among those splogs created by an identical spammer contribute to improving the performance of splog detection. In measuring similarities of html structures, we extract a list of blocks (minimum unit of content) from the DOM tree of a html file. We show that the html files of splogs estimated to be created by an identical spammer tend to have similar DOM trees and this tendency is quite effective in splog detection.