著者
佐藤 亘 打田 研二 山名 早人
雑誌
研究報告 情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2011-IFAT-103, no.8, pp.1-8, 2011-07-26

近年,自然言語処理をはじめとする数多くの研究が,検索エンジンから得られる検索結果数,すなわちヒット数を利用している.しかしながら,検索エンジンが返すヒット数は検索するタイミングによって不自然に変化し,研究のベースとして用いるには無視できないほどの大きな誤差が生じることがある.そのため,ヒット数の信頼性を評価,向上させる手法を考えることは,大きな課題である考えられる.我々はこの課題に対して,信頼できるヒット数を得ることができる条件の特定を試みた研究や,実際に得られたヒット数の信頼性を定量的に評価できる手法の提案を行ってきた.本論文では,後者の研究に追加して,信頼性評価指標の妥当性検証実験を行ったので結果を報告する.
著者
佐藤 亘 橘 完太
出版者
日本知能情報ファジィ学会
雑誌
日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集 第30回ファジィシステムシンポジウム
巻号頁・発行日
pp.180-181, 2014 (Released:2015-04-01)

強化学習とは試行錯誤を通じて未知環境における最適行動を獲得する学習手法である.強い非定常性を持つ環境で強化学習を行う場合,学習に膨大な時間がかかってしまう可能性がある.この問題に関してさまざまな研究がされてきた.著者の知るかぎりではこれらの手法は環境変化の認知と環境への対応という2つの部分から構成されているという点で共通している.従来手法ではエージェントに環境変化を認知するセンサーを持たせ,最適行動と探索行動の切り替えを行っていたが,提案手法では確率分布としての状態価値をベイズ更新することにより環境変化時の最適行動と探索行動を確率分布に従って切り替えられるようになる.
著者
上田 高徳 佐藤 亘 鈴木 大地 打田 研二 森本 浩介 秋岡 明香 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.2, pp.85-97, 2013-03-29

Webクローラは,クローリング済みURLの検出やWebサーバに対する連続アクセス防止といった処理を実行しながらデータ収集を行う必要がある.Web空間に存在する大量のURLに対して高速な収集を実現するために並列分散クローリングが求められるが,省資源でのクローリングを行うためにも,処理の時間計算量と空間計算量の削減に加え,計算機間の負荷分散も必要である.本論文で提案するWebクローラは,クローリング処理をProducer-Consumer型のモジュール群で実行することにより,これまでの被クロールWebサイト単位での負荷分散でなく,Webクローラを構成するモジュール単位での負荷分散を実現する.つまり,Webクローラを構成する各モジュールが必要とする計算機資源に応じた分散処理が可能になり,計算機間での計算負荷やメモリ使用量の偏りを改善することができる.また,ホスト名やURLを管理するモジュールは時間計算量と空間計算量に優れたデータ構造を利用して構成されており,大規模なクローリングが省資源で可能になる.Web crawlers must collect Web data while performing tasks such as detecting crawled URLs and preventing consecutive accesses to a particular Web server. Parallel-distributed crawling is carried out at a high speed for the enormous number of URLs existing on the Web. However, in order to crawl efficiently, a crawler must realize load balancing between computers in addition to reducing time and space complexities in the crawling process. The Web crawler proposed in this paper crawls the Web using producer-consumer modules, which compose the crawler, and it realizes load balancing per module and not per crawled Web site. In other words, it realizes load balancing that is appropriate to certain computer resources necessary for the modules that compose the Web crawler; in this way, it improves biases in computation loads and memory utilization between computers. Moreover, the crawler is able to crawl the Web on a large scale while conserving resources, because the modules that manage host names or URLs are implemented by data structures that are temporally and spatially efficient.
著者
佐藤 亘 打田 研二 山名 早人
雑誌
研究報告 情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2011, no.8, pp.1-8, 2011-07-26

近年,自然言語処理をはじめとする数多くの研究が,検索エンジンから得られる検索結果数,すなわちヒット数を利用している.しかしながら,検索エンジンが返すヒット数は検索するタイミングによって不自然に変化し,研究のベースとして用いるには無視できないほどの大きな誤差が生じることがある.そのため,ヒット数の信頼性を評価,向上させる手法を考えることは,大きな課題である考えられる.我々はこの課題に対して,信頼できるヒット数を得ることができる条件の特定を試みた研究や,実際に得られたヒット数の信頼性を定量的に評価できる手法の提案を行ってきた.本論文では,後者の研究に追加して,信頼性評価指標の妥当性検証実験を行ったので結果を報告する.Recently, there exit numerous researches based on the number of search results, or hit count. However, hit counts returned by search engines can fluctuate unnaturally when observed on different days, and may cause too large errors to be used in researches. Therefore, it is important to discuss on how we can evaluate and improve the reliability of hit counts. We have performed several researches about this problem such as a research to specify the conditions in which search engines can return reliable hit counts, and a research to define the reliability evaluation metrics. In this paper, in addition to the latter research, we'll report the result of validation experiments for the reliability evaluation metrics.