- 著者
-
池田 彰吾
松本 章代
小西 達裕
高木 朗
小山 照夫
三宅 芳雄
伊東 幸宏
- 出版者
- 情報処理学会
- 雑誌
- 情報処理学会研究報告デジタルドキュメント(DD) (ISSN:09196072)
- 巻号頁・発行日
- vol.2008, no.34, pp.31-38, 2008-03-28
- 被引用文献数
-
2
2
Web ページは適切に構造化されていることが少ないため、計算機がその構造を把握するのは容易ではない.そこで本論文では繰り返し構造を発見することで,より正確に Web ページ中の見出しの階層構造を解析する手法を提案する.そして,評価実験を行い,提案手法の性能を実験的に検証し,その結果を報告する.In this paper, we propose a method to analyze a hierarchy of headlines in Web pages by detecting repeated structure. Our method can analyze the structure of Web pages that is not well structured. We show an experimental evaluation of our method.