著者
吉田 光男 乾 孝司 山本 幹雄
雑誌
楽天研究開発シンポジウム論文集
巻号頁・発行日
vol.2009, pp.7-10, 2009-11

近年のWeb ページの増加により,Web ページのコンテンツを利用するサービスや研究が盛んになってきている.本論文では,Web ページ集合を用いる事により,CSS セレクタで表現されたコンテンツ抽出ルールを自動的に獲得する手法を提案する.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対して適切な抽出ルールが獲得できた事を示す.

言及状況

Twitter (1 users, 2 posts, 0 favorites)

Scrapy でコンテンツ部分の xpath/selecter を書くのが面倒だと思っていたけど、自分の研究成果を利用するべきだな…。/ CSSセレクタで表現されたコンテンツ抽出ルールの自動獲得 https://t.co/3dRBdu0wuC
今の状況、楽天研究開発シンポジウム2009に投稿した時を思い出す。ネタをひねり出して、実装、実験、論文を大体10日でやったんだった。 http://t.co/JRs89S1T0Q この内容、まだ回収していないので、興味ある学生さんに追実験してもらいたかったり。。。

収集済み URL リスト