著者
上田 高徳 佐藤 亘 鈴木 大地 打田 研二 森本 浩介 秋岡 明香 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.2, pp.85-97, 2013-03-29

Webクローラは,クローリング済みURLの検出やWebサーバに対する連続アクセス防止といった処理を実行しながらデータ収集を行う必要がある.Web空間に存在する大量のURLに対して高速な収集を実現するために並列分散クローリングが求められるが,省資源でのクローリングを行うためにも,処理の時間計算量と空間計算量の削減に加え,計算機間の負荷分散も必要である.本論文で提案するWebクローラは,クローリング処理をProducer-Consumer型のモジュール群で実行することにより,これまでの被クロールWebサイト単位での負荷分散でなく,Webクローラを構成するモジュール単位での負荷分散を実現する.つまり,Webクローラを構成する各モジュールが必要とする計算機資源に応じた分散処理が可能になり,計算機間での計算負荷やメモリ使用量の偏りを改善することができる.また,ホスト名やURLを管理するモジュールは時間計算量と空間計算量に優れたデータ構造を利用して構成されており,大規模なクローリングが省資源で可能になる.Web crawlers must collect Web data while performing tasks such as detecting crawled URLs and preventing consecutive accesses to a particular Web server. Parallel-distributed crawling is carried out at a high speed for the enormous number of URLs existing on the Web. However, in order to crawl efficiently, a crawler must realize load balancing between computers in addition to reducing time and space complexities in the crawling process. The Web crawler proposed in this paper crawls the Web using producer-consumer modules, which compose the crawler, and it realizes load balancing per module and not per crawled Web site. In other words, it realizes load balancing that is appropriate to certain computer resources necessary for the modules that compose the Web crawler; in this way, it improves biases in computation loads and memory utilization between computers. Moreover, the crawler is able to crawl the Web on a large scale while conserving resources, because the modules that manage host names or URLs are implemented by data structures that are temporally and spatially efficient.
著者
大野 有輝 菅谷 みどり 秋岡 明香 中島 達夫
出版者
情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.5, pp.1-10, 2010-04-14

近年,CPU のマルチコア化によって処理能力を向上させる手法が一般的になっている.しかしながらマルチコア環境では,共有資源におけるリソースの競合による処理性能低下の問題がある.本研究では,プロセスの動作予測の結果から,実行コアの割当を決めることで,アプリケーションの処理性能を向上させる SPLiT (Scalable Performance Library Tool) を提案する.SPLiT は,(1) PMU (Performance Monitoring Unit) を用いたハードウェアの性能データの収集,(2) アプリケーションの処理に関する情報を元に動作予測を行うシステムを提供する.本研究では,SPLiT システムを Linux 上に実装し,Apache と MySQL に SPLiT lib を組込むことで,ウェブアプリケーションの最適化を行った.評価では必要な開発コストを最小におさえ,Web アプリケーションの性能を最大で 26% 向上させたことを示した.Recently, multicore processors have become populer, however, the concurrent execution with multicore processors causes resource contentions that can turn into a performance bottleneck. In this research, we present SPLiT (Scalable Performance Library Tool) which optimizes resource assignment by predicting processes behaviors. SPLiT collects the performance data in the kernel with PMU (Performance Monitoring Unit) and in processes of applications through the API of its library. With the result of prediction, it assigns CPU cores to each process and improves usage efficiency and caches. We implemented SPLiT on Linux, built its library into Apache and MySQL for the optimization of web applications, and evaluated its performance. The result shows SPLiT can improve the performance up to 26% without the development cost of applying SPLiT lib.
著者
加藤 慶一 秋岡 明香 村岡 洋一 山名 早人
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2010-DBS-151, no.22, pp.1-8, 2010-11-05

Twitter に代表されるミニブログは新たなメディアとして注目を集めており,そこでの発言の解析や,テレビや新聞等の他のメディアとミニブログとの相関関係の解析に対する需要が高まっている.しかし,ミニブログにおける発言は,特定の作品や商品に関する言及を多く含み,これらの多くは複合語であるため,そもそも形態素解析を正しく行なうことが難しい.そこで,ミニブログにおける出現頻度が急上昇した自立語,特に名詞に注目し,複合語で構成される固有名詞 (注目語) を取得する手法を提案する.提案手法により,ミニブログにおける形態素解析の精度向上が期待でき,ミニブログや他のメディアでの関連ある話題をより正確に追跡することが可能となる.