著者
吉田 泰明 上田 高徳 田代 崇 平手 勇宇 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. DBS,データベースシステム研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.143, pp.441-446, 2007-07-02
参考文献数
17
被引用文献数
2

現在,Web上の情報は膨大であり,欲しい情報をWeb上から探すために検索エンジンが広く用いられている.このように,検索エンジンのランキングが与える社会的影響は大きいにも関わらず,ユーザは検索エンジンのランキング手法を理解せずに利用しているのが現状である.本稿では,各種検索エンジンの特徴を明らかにすべく,週に一回1000のクエリを用い主要な3つの検索エンジンのランキングの比較と特徴の解析を行った.その結果,主要な検索エンジン間ではランキングの上位ほど揃いやすく,ランキングの時間変化の特徴にも違いがあることが分かった.また,ランキングと逆リンク数にも相関があることが分かった.
著者
大野 亮仁 藤 博幸 山名 早人
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2013-BIO-34, no.11, pp.1-7, 2013-06-20

G タンパク共役受容体 (G-protein-coupled receptor,以下 GPCR) は,内在性リガンドと結合することで細胞外からの様々なシグナルを細胞内に伝達しており,新薬開発の重要なターゲットとして注目されている.しかし,GPCR と化合物の組合せは膨大であるため,計算機による正確な結合予測手法が求められている.先行研究として,GPCR を構成するアミノ酸配列全長が持つ化学的性質と化合物の化学的性質を用いて結合を予測する手法がある.しかし,GPCR には立体構造が既知のものがあり,その細胞外側の領域にリガンド結合部位が決まっている.よって,リガンド結合部位のアミノ酸が結合に強く影響を与えると考えたため,リガンド結合部位のアミノ酸に注目すべきと考えた.本研究では,全長配列を使用する代わりに,リガンド結合部位のアミノ酸のみを利用することで予測の改善を試みた.特徴量として結合部分のアミノ酸と化合物の化学記述子を用い,SVM により GPCR と化合物の結合を予測したところ,アミノ酸配列全長を用いた時に比べ Accuracy が 3.6%,F 値は 0.038,AUC は 0.002 向上した.
著者
山名 早人
出版者
社団法人情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.54, no.2, pp.84-89, 2004-02-01
被引用文献数
1

今や検索エンジンは,インターネットを利用する上でなくてはならない存在となっている。しかし,そのアーキテクチャは明らかにされていない部分が多い。本稿では,世界最大の検索エンジンであるGoogleを例にとり,検索エンジンのアーキテクチャについて, Web情報の収集,インデックス化,検索の3つに焦点をあてて紹介する。また,大量の検索クエリーをどのように処理するかや,運用にはどの程度のコストがかかるのかなどの運用に関わる問題についても取り上げる。
著者
佐藤 亘 打田 研二 山名 早人
雑誌
研究報告 情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2011, no.8, pp.1-8, 2011-07-26

近年,自然言語処理をはじめとする数多くの研究が,検索エンジンから得られる検索結果数,すなわちヒット数を利用している.しかしながら,検索エンジンが返すヒット数は検索するタイミングによって不自然に変化し,研究のベースとして用いるには無視できないほどの大きな誤差が生じることがある.そのため,ヒット数の信頼性を評価,向上させる手法を考えることは,大きな課題である考えられる.我々はこの課題に対して,信頼できるヒット数を得ることができる条件の特定を試みた研究や,実際に得られたヒット数の信頼性を定量的に評価できる手法の提案を行ってきた.本論文では,後者の研究に追加して,信頼性評価指標の妥当性検証実験を行ったので結果を報告する.Recently, there exit numerous researches based on the number of search results, or hit count. However, hit counts returned by search engines can fluctuate unnaturally when observed on different days, and may cause too large errors to be used in researches. Therefore, it is important to discuss on how we can evaluate and improve the reliability of hit counts. We have performed several researches about this problem such as a research to specify the conditions in which search engines can return reliable hit counts, and a research to define the reliability evaluation metrics. In this paper, in addition to the latter research, we'll report the result of validation experiments for the reliability evaluation metrics.
著者
山名 早人
出版者
早稲田大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2009

2010年度は、2009年度に開発したシステム自動最適化アルゴリズムの実機評価を目指した。本アルゴリズムはProducer-Consumer型のモジュール群で構築されたアプリケーションにおいて、メニーコアCPUを最大限に利用できるよう各モジュールに割り当てる計算機やスレッド数を自動で決定し、アプリケーションの性能を最適化することが目標である。研究には我々が開発している分散処理フレームワークであるQueueLinkerを用いた。2010年度は、まず、自動最適化アルゴリズムの評価用アプリケーションとしてWebクローラを開発し、QueueLinkerのプロトタイプにより動作を確認した。本クローラを構成するモジュールは全てProducer-Consumer型であり、QueueLinkerにより分散実行できる。実験に先立ち、本クローラがWebサーバにかける負荷を軽減するために、同一Webサーバに対するアクセス時間間隔の最小値を厳密に保証するクローリングスケジューラを開発した。本スケジューラは、時間計算量が0(1)であり、空間計算量の上限がクローリング対象のURL数に依存しない。本アルゴリズムはDEIM 2011において発表した。そして、開発したWebクローラをアプリケーションに用い、QueueLinkerの自動プロファイリング機能を開発した。本プロファイリング機能は、モジュールが使用するCPU時間や、ネットワーク通信量をプロファイリングできる。その後、昨年度開発したシステム自動最適化アルゴリズムを実際のプロファイリングデータを利用して動作するよう設計を修正した。本アルゴリズムは、各モジュールが使用するリソース量に基づいて、アプリケーションの性能が最大になるように、モジュールに割り当てる計算機やスレッド数を自動で決定するものである。
著者
加藤 慶一 秋岡 明香 村岡 洋一 山名 早人
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2010-DBS-151, no.22, pp.1-8, 2010-11-05

Twitter に代表されるミニブログは新たなメディアとして注目を集めており,そこでの発言の解析や,テレビや新聞等の他のメディアとミニブログとの相関関係の解析に対する需要が高まっている.しかし,ミニブログにおける発言は,特定の作品や商品に関する言及を多く含み,これらの多くは複合語であるため,そもそも形態素解析を正しく行なうことが難しい.そこで,ミニブログにおける出現頻度が急上昇した自立語,特に名詞に注目し,複合語で構成される固有名詞 (注目語) を取得する手法を提案する.提案手法により,ミニブログにおける形態素解析の精度向上が期待でき,ミニブログや他のメディアでの関連ある話題をより正確に追跡することが可能となる.
著者
田代 崇 上田 高徳 堀 泰祐 平手 勇宇 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.78, pp.27-33, 2006-07-13
被引用文献数
1

近年のWebページ総数の飛躍的な増加に伴い,歌詞や新聞記事の無断引用などの著作権侵害のWebページの数も増大している.そこで本稿では,著作権違反の疑いのあるページを自動検出するシステムを提案する.本システムではまず,検索ワードを,指定された文章を文節単位に区切り組み合わせることにより生成し、GoogleやYahoo!が提供しているWebサービスを用いて著作権違反の候補ページを収集する.次に候補ページを類似度をもとにランキングを行ない,ユーザーに提示する.ランキングに用いた類似度は文節をもとにした最長共通部分列から求める.評価実験を行った結果,歌詞,新聞記事,ブログ等からなるWebページをシードとして,著作権侵害ページを検出することができた.Due to explosive increase of the number of web pages, the number of copyright violation web pages, such as lyrics or news citation pages without permission, has also been increased. To solve this problem, we propose a system for detecting copyright violation web pages. The proposed system consists of three steps. Firstly, the system generates search keywords on phrasal units, called "bunsetsu", which are included in the "seed page." Secondly, on search keywords generated by the first step, the system gathers candidate of web pages violating copyright by using Google or Yahoo! web service. Finally, the system re-ranks the candidate web pages with similarity to the seed page. Here, we adopted "Longest Common Subsequence" of phrasal units, as a similarity measurement. Our evaluation confirmed that proposed system is able to extract copy violation web pages correctly.
著者
曽根 広哲 吉田 泰明 平手 勇宇 山名 早人
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 (ISSN:09135685)
巻号頁・発行日
vol.108, no.93, pp.89-94, 2008-06-19
被引用文献数
2

検索エンジンはインターネットで情報を探す手段として欠くことができない.また,ユーザは検索エンジンの検索結果から得られる情報はテレビからの情報とほぼ同等の信頼性があると認知しているという調査報告がある.すなわち,検索エンジンのランキングを調べることによって,あるサイトが社会に与える影響力の一端を把握できると考えられる.本稿では,今やインターネット上の百科事典の代名詞ともなったウィキペディアが社会に与える影響力を調べることを目的として,日本語版ウィキペディアの検索エンジンにおけるランキング解析を行った.実験の結果,全記事のうち,上位10位以内にランキングされた記事はYahoo! JAPANとGoogleでは約9割,MSNでは約7割となった.また,Yahoo! JAPAN,MSNともに,ウィキペディアの新規記事は「はてなダイアリーキーワード」と比べ,最初から上位10位以内に現れる傾向が強く,上位のランキングを維持する傾向があることが分かった.以上のようにウィキペディアの影響力は大きいものであるということが実験結果から確認できた.
著者
山名 早人 安江 俊明 石井 吉彦 村岡 洋一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-I, 情報・システム, I-コンピュータ (ISSN:09151915)
巻号頁・発行日
vol.77, no.5, pp.343-353, 1994-05-25
被引用文献数
4

本論文では,並列処理システム上ではFORTRANプログラムを高速に実行する方式として,多段の条件分岐に渡る先行評価を用いたプログラムの並列化と実行方式を提案する.従来,条件分岐を含むプログラムを並列化する手法がいくつか提案されている.先行評価を用いない手法としては,(1)タスクの最早実行条件求出法があり,先行評価を用いる手法としては,(2)スーパスカラプロセッサやVLIW計算機を対象とした条件分岐1段に限った先行評価方式,および,(3)特定のループを対象とした多段の先行評価方式,が提案されている.しかし,(1)最早実行条件を求めるのみでは十分な並列性が得られない.(2)1段の条件分岐の先行評価で得られる速度向上はたかだか2倍である,(3)適用対象が特定ループに限られる,という問題をもつ.これらの問題に対して,本論文では,プログラムをマクロタスクに分割し,マクロタスク間の多段の先行評価方式を一般的な並列処理システム上で定義する.そして,各々のマクロタスクについと,実行開始条件・制御確定条件・実行停止条件を用いたマクロタスクの実行制御手法を提案する.
著者
舟橋 卓也 上田 高徳 平手 勇宇 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.88, pp.139-144, 2008-09-14
被引用文献数
2

これまでに検索エンジンのヒット数を利用した研究が数多く行われている.こうした研究では、当該クエリに対するヒット数を用いることにより,翻訳支援や自然言語処理支援など様々なアプリケーション構築を目指している.従来,検索エンジンのヒット数は信頼できるという仮定の下で用いられてきた.しかし検索エンジンが返すヒット数の信頼性に対する検証は筆者の知る限り行われていない.もしもヒット数が不正確な場合,ヒット数を利用した研究の信頼性は疑わしいものとなる.そこで本論文では,検索エンジンのヒット数に対してその信頼性の検証を行う.検証実験では,日本で広く用いられている商用検索エンジンである Google,Yahoo! Japan,Live Search が提供している検索 API を利用した.また実験に利用するクエリとして,日本語 Wikipedia からランダムに選択した 1 000 件の記事タイトルを使用した.検証実験の結果,ヒット数は 5% ~ 50% の確率で,推定を行った理想的なヒット数に対して 5% 以上大きさが異なることがわかった.A number of studies have been using Search Engines' hit count. The goal of these studies is to build applications for translation support or natural language processing support. These studies assume that the hit count is reliable. However, none of the studies have been verifide the reliability of Search Engines' hit count. If the hit count is unreliable, studies using hit count become also unreliable. The purpose of this paper is to verify the reliability of Search Engines' hit count. In this experiment, we used Search APIs provided by Google, Yahoo! Japan and Live Search. Furthermore, we randomelyrandomly extracted 1,000 keywords from the titles of the articles on Wikipedia as queries. The verification experiment shows that hit count is depart from estimated ideal hit count in 5 - 50% of the time.
著者
岩橋 永悟 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.71, pp.327-334, 2003-07-16

データマイニング分野で重要な問題の一つに頻出パターン抽出問題がある。頻出パターン抽出手法では、多くの拡張手法を生んだAprioriが有名である。2000年になるとAprioriよりも高速な手法として、FP-growthが提案されたが、従来の並列化手法の多くは、依然としてAprioriに基づいている。本稿では、並列にディスクアクセスを行い、FP-treeをローカルに構築することによって、FP-growthを並列化する。本手法を32ノードクラスタ上で実験した結果、最小サポートを0.25%とした場合に約2倍の速度向上を得ることができた。また、最小サポートを2%とした場合、約130倍の速度向上を得ることができた。Frequent patterns mining is one of the important problem in data mining research. The Apriori is a prominent algorithm followed by many variants. In 2000, the FP-growth, which is reported to be faster than the Apriori, was proposed. However, many parallel algorithms of frequent pattern mining are still based on the Apriori. In this paper, we propose a parallelized version of the FP-growth, which accesses disks in parallel and constructs local FP-trees on each local memory. As a result of the evaluation using 32 node PC cluster, our method is approximately 2 and 130 times faster than sequential FP-growth, when minimum support is 0.25% and 2%, respectively.