- 著者
-
田代 崇
上田 高徳
堀 泰祐
平手 勇宇
山名 早人
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
- 巻号頁・発行日
- vol.106, no.149, pp.23-28, 2006-07-06
近年のWebページ総数の飛躍的な増加に伴い,歌詞や新聞記事の無断引用などの著作権侵害のWebページの数も増大している.そこで本稿では,著作権違反の疑いのあるページを自動検出するシステムを提案する.本システムではまず,検索ワードを,指定された文章を文節単位に区切り組み合わせることにより生成し、GoogleやYahoo!が提供しているWebサービスを用いて著作権違反の候補ページを収集する.次に候補ページを類似度をもとにランキングを行ない,ユーザーに提示する.ランキングに用いた類似度は文節をもとにした最長共通部分列から求める.評価実験を行った結果,歌詞,新聞記事,ブログ等からなるWebページをシードとして,著作権侵害ページを検出することができた.