著者
吉田 光男 山本 幹雄
出版者
日本データベース学会
雑誌
日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日
vol.8, no.1, pp.29-34, 2009-06

近年のCMS の普及によりWeb ページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWeb ページ群からコンテンツを抽出する手法を提案する。本手法は、Web ページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web 上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。
著者
吉田 光男 山本 幹雄
出版者
日本データベース学会
雑誌
日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日
vol.8, no.1, pp.29-34, 2009-06
被引用文献数
3

近年のCMS の普及によりWeb ページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWeb ページ群からコンテンツを抽出する手法を提案する。本手法は、Web ページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web 上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。
著者
喜田 拓也
出版者
日本データベース学会
雑誌
日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日
vol.8, no.1, pp.125-130, 2009-06
被引用文献数
5

本論文では,刈り込み接尾辞木を用いた新たな可変情報源系列固定長符号化(VF符号化)の手法を提案する.この符号化手法は,頻度情報に基づいて刈り込んだ接尾辞木を文節木として用いてVF符号化する.VF符号は,すべての符号語が等長であるという工学的に好ましい性質があり,圧縮パターン照合などへの重要な応用がある.実験の結果,提案符号は,自然言語文書などに対して約41%の圧縮率を達成しており,良く知られているHuffman符号や,古典的なVF符号であるTunstall符号よりも圧縮性能が良いことがわかった.In this paper, we propose a new VF-coding method. It uses a frequency-base-pruned suffix tree as a parse tree. VF codes have some desirable features from engineering aspects, and there are some important applications such as compressed pattern matching. Experimental results show that the proposed code achieves the compression ratio of about 41% for a natural language text, which is better than Tunstall code and Huffman code.