著者
吉田 光男 山本 幹雄
出版者
日本データベース学会
雑誌
日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日
vol.8, no.1, pp.29-34, 2009-06

近年のCMS の普及によりWeb ページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWeb ページ群からコンテンツを抽出する手法を提案する。本手法は、Web ページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web 上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。
著者
井上 創造 木實 新一 小林 隆志 土田 正士 喜連川 優
出版者
日本データベース学会
雑誌
日本データベース学会letters (ISSN:13478915)
巻号頁・発行日
vol.5, no.1, pp.81-84, 2006-06

学術会議は,口頭発表や資料による形式的な情報だけではなく,参加者が面と向かって交流をすることにより非形式的に情報交換ができるという点に意義があると言える.しかし,学術分野の専門化と細分化が進む今,初めて面と向かった参加者どうしに,互いのネームタグに書かれた情報だけで有意義な交流のきっかけが十分に用意されるとは言い難い.我々は,居合わせた参加者間の関係を発見し大画面に表示するシステム「DeaiExplorer」を開発し,数百人規模の国際学術会議において利用した.本システムは,居合わせた参加者が持つ RFID タグに反応し,文献データベースから参加者や他の著者をノードとするグラフを生成する.本論文では,利用で得られた結果を用いて,本システムが参加者間の関係発見にどのような影響を及ぼしたかを定性的,定量的に明らかにし,今後のシステム設計および研究課題の展望を示す.Academic conferences offer informal as well as formal opportunities to interact with each other. However, the physical appearance of participants and the information printed on their conference badges could not be enough to provide the effective opportunities. We developed "DeaiExplorer", which is an RFID application that discovers interpersonal connections by allowing collocated conference participants to mutually reveal their social networks on a large display device, and deployed it at a recent international conference. The system responds to nearby participants and dynamically derives inter-connected social networks from a publication database. We address the uncovered requirement for the system and challenges with the experience.
著者
吉田 光男 山本 幹雄
出版者
日本データベース学会
雑誌
日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日
vol.8, no.1, pp.29-34, 2009-06
被引用文献数
3

近年のCMS の普及によりWeb ページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWeb ページ群からコンテンツを抽出する手法を提案する。本手法は、Web ページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web 上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。
著者
喜田 拓也
出版者
日本データベース学会
雑誌
日本データベース学会論文誌 (ISSN:18831060)
巻号頁・発行日
vol.8, no.1, pp.125-130, 2009-06
被引用文献数
5

本論文では,刈り込み接尾辞木を用いた新たな可変情報源系列固定長符号化(VF符号化)の手法を提案する.この符号化手法は,頻度情報に基づいて刈り込んだ接尾辞木を文節木として用いてVF符号化する.VF符号は,すべての符号語が等長であるという工学的に好ましい性質があり,圧縮パターン照合などへの重要な応用がある.実験の結果,提案符号は,自然言語文書などに対して約41%の圧縮率を達成しており,良く知られているHuffman符号や,古典的なVF符号であるTunstall符号よりも圧縮性能が良いことがわかった.In this paper, we propose a new VF-coding method. It uses a frequency-base-pruned suffix tree as a parse tree. VF codes have some desirable features from engineering aspects, and there are some important applications such as compressed pattern matching. Experimental results show that the proposed code achieves the compression ratio of about 41% for a natural language text, which is better than Tunstall code and Huffman code.