田代 崇 上田 高徳 堀 泰祐 平手 勇宇 山名 早人
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
vol.2006, no.78, pp.27-33, 2006-07-13

近年のWebページ総数の飛躍的な増加に伴い,歌詞や新聞記事の無断引用などの著作権侵害のWebページの数も増大している.そこで本稿では,著作権違反の疑いのあるページを自動検出するシステムを提案する.本システムではまず,検索ワードを,指定された文章を文節単位に区切り組み合わせることにより生成し、GoogleやYahoo!が提供しているWebサービスを用いて著作権違反の候補ページを収集する.次に候補ページを類似度をもとにランキングを行ない,ユーザーに提示する.ランキングに用いた類似度は文節をもとにした最長共通部分列から求める.評価実験を行った結果,歌詞,新聞記事,ブログ等からなるWebページをシードとして,著作権侵害ページを検出することができた.Due to explosive increase of the number of web pages, the number of copyright violation web pages, such as lyrics or news citation pages without permission, has also been increased. To solve this problem, we propose a system for detecting copyright violation web pages. The proposed system consists of three steps. Firstly, the system generates search keywords on phrasal units, called "bunsetsu", which are included in the "seed page." Secondly, on search keywords generated by the first step, the system gathers candidate of web pages violating copyright by using Google or Yahoo! web service. Finally, the system re-ranks the candidate web pages with similarity to the seed page. Here, we adopted "Longest Common Subsequence" of phrasal units, as a similarity measurement. Our evaluation confirmed that proposed system is able to extract copy violation web pages correctly.


Twitter (1 users, 1 posts, 0 favorites)

こんな論文どうですか? Webページを対象とした著作権違反自動検知システム(ウェブ属性抽出,夏のデータベースワークショップDBWS 2006)(田代崇ほか),2006 http://id.CiNii.jp/UVhBL

収集済み URL リスト