- 著者
-
吉田 光男
乾 孝司
山本 幹雄
- 雑誌
- 楽天研究開発シンポジウム論文集
- 巻号頁・発行日
- vol.2009, pp.7-10, 2009-11
近年のWeb ページの増加により,Web ページのコンテンツを利用するサービスや研究が盛んになってきている.本論文では,Web ページ集合を用いる事により,CSS セレクタで表現されたコンテンツ抽出ルールを自動的に獲得する手法を提案する.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対して適切な抽出ルールが獲得できた事を示す.