著者
奥野峻弥 浅井洋樹 山名早人
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014, no.12, pp.1-6, 2014-07-25

従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.
著者
杉田 秀 深山 辰徳 蛭田 智則 當仲寛哲 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.17, pp.73-78, 2007-03-01
参考文献数
7

本研究では,マルチコア・SMT(Simultaneous Multi-Threading) プロセッサ上でのシェルスクリプト実行の有効性を示すことを目的とする.近年マルチコアプロセッサおよびSMTの技術が注目されている.しかし,並列性を考慮していないプログラムを通常のコンパイラでコンパイルしても,マルチコアプロセッサやマルチスレッドを有効活用することはできない.通常,これらの技術の恩恵を受けるためには,並列化プログラミングが必要であり,自動並列化の技術も数多く研究されている.本稿では,シェルスクリプト自身が持つ並列性に着目し,マルチコアプロセッサ・SMT環境において,シェルスクリプトの高速化を実現する手法,シェルスクリプトの自動並列化プログラムを提案する.本提案手法を用いて,マルチコアプロセッサ・SMTマシン上でシェルスクリプトの実行を行った結果,手法適用前に比べて1.4~1.8倍の速度向上を得ることができた.The purpose of this study is to show the effectiveness of shell script execution on multi-core and/or SMT (Simultaneous Multi-Threading) processors. Recently, multi-core processor and SMT technique have become popular even at home and in business. However, using programs or compilers without consideration of parallelism does not give us the benefits of multi-core and multi-thread. Programmers have to do parallel programming to receive the benefits. Therefore, automatic parallelizing technique has been studied actively. This paper proposes automatic parallelizing scheme for shell script programs on multi-core and/or SMT processors. As a result of the experiment, we have confirmed that the speed-up of automatic parallelized shell script program is 1.4 to 1.8 times in comparison with the original shell script program.
著者
山名 早人
出版者
社団法人情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.61, no.9, pp.343-348, 2011-09-01
参考文献数
22

近年のウェブサーチエンジンは,その検索結果ページに様々な情報ソースからの検索結果を統合して表示する。統合される情報ソースは,ウェブページだけではなく,ニュース記事,ブログ記事,画像,動画,Twitterなどのリアルタイム情報などである。しかし,こうした様々な情報ソースからの検索結果は常に表示されるわけではない。ウェブサーチエンジンは,どのクエリに対して,どの情報ソースを対象に検索し,どの検索結果を統合すべきかを判断している。本稿では,こうしたウェブサーチエンジンにおける統合検索で用いられている技術とその評価手法を紹介すると共に,統合検索の今後について述べる。
著者
奥野峻弥 浅井洋樹 山名早人
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014-IFAT-115, no.12, pp.1-6, 2014-07-25

従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.
著者
曽根 広哲 吉田 泰明 平手 勇宇 山名 早人
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.108, no.94, pp.89-94, 2008-06-12
被引用文献数
1

検索エンジンはインターネットで情報を探す手段として欠くことができない.また,ユーザは検索エンジンの検索結果から得られる情報はテレビからの情報とほぼ同等の信頼性があると認知しているという調査報告がある.すなわち,検索エンジンのランキングを調べることによって,あるサイトが社会に与える影響力の一端を把握できると考えられる.本稿では,今やインターネット上の百科事典の代名詞ともなったウィキペディアが社会に与える影響力を調べることを目的として,日本語版ウィキペディアの検索エンジンにおけるランキング解析を行った.実験の結果,全記事のうち,上位10位以内にランキングされた記事はYahoo! JAPANとGoogleでは約9割,MSNでは約7割となった.また,Yahoo! JAPAN,MSNともに,ウィキペディアの新規記事は「はてなダイアリーキーワード」と比べ,最初から上位10位以内に現れる傾向が強く,上位のランキングを維持する傾向があることが分かった.以上のようにウィキペディアの影響力は大きいものであるということが実験結果から確認できた.
著者
上里和也 奥谷貴志 浅井洋樹 奥野峻弥 田中正浩 山名早人
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.21, pp.1-8, 2013-11-19

Twitter のユーザ数が増加を続ける一方で,不正に ID 及びパスワードを入手され,他人によってツイートを投稿される被害が増加している.これに対し,我々はアカウント乗っ取りによって投稿されるメッセージの一部であるスパムツイートの検出手法を提案し,8 割程度の正答率を得ている.同手法では特定の単語が含まれているスパムツイートを検出対象とし,検出の有効性を示している.本研究では同検出対象を広げ,アカウントの所持者以外が投稿したツイート全体を 「乗っ取りツイート」 として定義し,これを検出する手法を提案する.また本研究では,以前提案した手法に対してパラメータの再調整を行うと同時に,頻繁に用いるハッシュタグの種類及びリプライを送る相手が各アカウントにおいて特徴的であることを利用し,F 値の向上を図った.100 アカウントに対して評価実験を行った結果,我々が提案している従来手法と比較し,F 値を 0.1984 向上させ F 値 0.8570 を達成した.
著者
石川 隼輔 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.22, pp.121-126, 2002-03-07

本稿では,ループに対して投機的実行を効果的に適用する手法について提案し,SPECcpu95 ベンチマークのcompress プログラムを用いて有効性を検証した.一般的に,ループはプログラムの実行時間の大部分を占めていることから,ループ並列化によるプログラム速度向上率は高い。しかし、従来の並列化手法では、データ依存が静的に解析できない場合、データ依存が存在すると仮定し解析を進める。このため、たとえば,実際には一万回に一回しかループ運搬依存(LCD)が発生しないようなループであっても並列化することができない.しかし,このようなループに対して投機的実行を適用することにより,プログラムを高速に実行することが可能となる.本稿では、従来考慮されてこなかった投機的実行失敗時の復帰処理に必要なオーバーヘッドをパラメータとして取り入れることにより,投機的実行の効果が期待できる部分のみを選択的に投機的実行する方式を提案する。提案手法は、復帰処理オーバーヘッドの他、LCD が実行時にどの程度の確立で存在するのかを表すLCD 存在率と、投機的実行開始位置とをパラメータとし,選択的な投機的実行を実現する。本手法をcompress プログラムに適用した結果,現状では3倍の速度低下がみられた。このため、速度低下の原因を解析し,その原因を解決するための新たな投機的実行適用手法も提案する.In this paper, we propose an efficient speculative execution scheme for loops, and have confirmed the usefullness of the scheme using the compress program from SPECcup95 benchmark. Generally, since the execution time of loops holds the large portion of the total execution time, the loop parallelization scheme improves the program performance, dramatically. However, when the data dependence cannnot be analyzed statically, the conventional parallelization scheme assumes that the data dependence exists. For this reason, such a loop cannot be parallelized even if the loop carried dependence(LCD) occurs only in 10,000 times, dynamically. However, the speculative execution scheme has been known to speedup such a loop. In this paper, we propose the scheme to apply the speculative execution alternatively only to the portion expected to be speeduped effectively, using the overhead parameter required for the book-keeping process when the speculation fails. Such overhead has not been considered on conventional speculative execution schemes. The proposed scheme enables the alternative speculative exection using the overhead parameter for book-keeping, the LCD existence probability, and the timing of the speculative execution initiation. As a results, in the present stage, the execution speed is fell down to one third. To solve this problem, we also propose a new speculative execution.
著者
田代 崇 上田 高徳 堀 泰祐 平手 勇宇 山名 早人
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
巻号頁・発行日
vol.106, no.149, pp.23-28, 2006-07-06

近年のWebページ総数の飛躍的な増加に伴い,歌詞や新聞記事の無断引用などの著作権侵害のWebページの数も増大している.そこで本稿では,著作権違反の疑いのあるページを自動検出するシステムを提案する.本システムではまず,検索ワードを,指定された文章を文節単位に区切り組み合わせることにより生成し、GoogleやYahoo!が提供しているWebサービスを用いて著作権違反の候補ページを収集する.次に候補ページを類似度をもとにランキングを行ない,ユーザーに提示する.ランキングに用いた類似度は文節をもとにした最長共通部分列から求める.評価実験を行った結果,歌詞,新聞記事,ブログ等からなるWebページをシードとして,著作権侵害ページを検出することができた.
著者
山名 早人 近藤 秀和
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.42, no.8, pp.775-780, 2001-08-15
被引用文献数
11

Googleは,世界最大の情報を持つサーチエンジンとして有名である.Googleは,スタンフォード大学コンピュータサイエンス学科の研究プロジェクトとしてスタートした後,シリコンバレーの2大ベンチャーキャピタルから総額2 500万ドルの投資を受け,博士課程の学生であった当時25歳のLarry(Lawrence)Pageと Sergey Brinの2人が1998年9月に会社として起業した.
著者
山名 早人 村田 剛志
雑誌
情報処理
巻号頁・発行日
vol.46, no.9, pp.981-987, 2005-09-15
著者
山名 早人 村田 剛志
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.46, no.9, pp.981-987, 2005-09-15
被引用文献数
4
著者
佐藤 亘 打田 研二 山名 早人
雑誌
研究報告 情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2011-IFAT-103, no.8, pp.1-8, 2011-07-26

近年,自然言語処理をはじめとする数多くの研究が,検索エンジンから得られる検索結果数,すなわちヒット数を利用している.しかしながら,検索エンジンが返すヒット数は検索するタイミングによって不自然に変化し,研究のベースとして用いるには無視できないほどの大きな誤差が生じることがある.そのため,ヒット数の信頼性を評価,向上させる手法を考えることは,大きな課題である考えられる.我々はこの課題に対して,信頼できるヒット数を得ることができる条件の特定を試みた研究や,実際に得られたヒット数の信頼性を定量的に評価できる手法の提案を行ってきた.本論文では,後者の研究に追加して,信頼性評価指標の妥当性検証実験を行ったので結果を報告する.
著者
今林 広樹 石巻 優 馬屋原 昂 佐藤 宏樹 山名 早人
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.10, no.1, pp.1-12, 2017-03-22

医薬品や遺伝子などの機密性の高いデータに対する各種処理をクラウドなどの第三者のサーバ上で行う場合,第三者のサーバからの機密情報漏洩が懸念される.解決策として,機密情報そのものではなく匿名化したデータを第三者のサーバに保存し各種処理を行う方法が考えられるが,医療分野など,処理の正確性が求められる分野では匿名化を採用することが困難である.この問題を解決するため,本稿では,完全準同型暗号(FHE: Fully Homomorphic Encryption)を用いてデータを秘匿した状態で各種処理を行うことを考える.そして,各種処理の対象として頻出パターンマイニングを取り上げる.FHEを用いた各種処理を行ううえでの問題は,膨大な時間・空間計算量を要する点である.FHEの頻出パターンマイニング手法への適用例としては,Aprioriアルゴリズムを対象としたLiuらのP3CCがあるが,やはり膨大な時間・空間計算量を要する.これに対して本稿では,1) 暗号文パッキングによる暗号文数の削減,および2) 暗号文キャッシングによるサポート値計算の高速化によって,時間・空間計算量を削減する手法を提案する.実験評価では,10,000トランザクションのデータセットにおいて,P3CCの430倍の高速化と94.7%のメモリ使用量削減を達成した.
著者
山名 早人 近藤 秀和
雑誌
情報処理
巻号頁・発行日
vol.42, no.8, pp.775-780, 2001-08-15

Googleは,世界最大の情報を持つサーチエンジンとして有名である.Googleは,スタンフォード大学コンピュータサイエンス学科の研究プロジェクトとしてスタートした後,シリコンバレーの2大ベンチャーキャピタルから総額2 500万ドルの投資を受け,博士課程の学生であった当時25歳のLarry(Lawrence)Pageと Sergey Brinの2人が1998年9月に会社として起業した.
著者
馬屋原 昂 佐藤 宏樹 石巻 優 今林 広樹 山名 早人
雑誌
研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:21888795)
巻号頁・発行日
vol.2017-OS-141, no.6, pp.1-7, 2017-07-19

マルチコアシステム上で多数のスレッドが同時実行される場合,メモリアロケーションがボトルネックになることがある.これは,複数のスレッドから同時にシステムコールが呼ばれることに起因する.TCMalloc,JEmalloc,SuperMalloc などの従来の汎用用途向けのメモリアロケータでは,各スレッドのローカルヒープメモリへロックフリーでアクセスすることで高速化を実現している.これに対して本稿では,完全準同型暗号計算を対象にした FCMalloc を提案する.完全準同型暗号計算ではメモリ使用量が既知の場合が多く,さらに,ある決まったパターンでメモリアロケーションが繰り返されるという特徴がある.こうした特徴を利用し,FCMalloc では pseudo free によってメモリマッピング情報を繰り返し利用することで,物理メモリレベルでメモリプールを用いる.さらに,ローカルヒープメモリ間の通信経路の構造を全結合とすることで,複数のスレッドによるアクセスのロック競合を減少させる.すなわち,システムコールの頻度を下げ,メモリ管理をできる限りユーザ領域で実現することにより高速化を実現する.完全準同型暗号上で構築した頻出パターンマイニングアルゴリズムである Apriori アルゴリズムを対象とした評価実験の結果,既存手法の中で最も高速である JEmalloc と比較して 2.4 倍の高速化を達成した.
著者
山名 早人
雑誌
情報処理学会研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2004, no.45(2004-DBS-133), pp.107-110, 2004-05-14

インターネット上のWWWサーバから発信される情報量は膨大であり、2004年4月時点で、テキストデータだけでも92.5億ページと推測される。また、2002年?2003年の増加傾向をみると、Webページは今後も1年間におよそ10億ページずつ増加を続けると予想される。このような膨大なWebページには、人間が一生かかっても学ぶことのできない情報、知識、ノウハウが凝縮されていると言っても過言ではない。本稿では、このような膨大なWebデータをどのように収集し更新すべきか、そして、このような膨大なWebデータをどのように有効活用すべきかについて、いくつかの研究事例を紹介すると共に、新しい利用法について考える。
著者
上田 高徳 佐藤 亘 鈴木 大地 打田 研二 森本 浩介 秋岡 明香 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.2, pp.85-97, 2013-03-29

Webクローラは,クローリング済みURLの検出やWebサーバに対する連続アクセス防止といった処理を実行しながらデータ収集を行う必要がある.Web空間に存在する大量のURLに対して高速な収集を実現するために並列分散クローリングが求められるが,省資源でのクローリングを行うためにも,処理の時間計算量と空間計算量の削減に加え,計算機間の負荷分散も必要である.本論文で提案するWebクローラは,クローリング処理をProducer-Consumer型のモジュール群で実行することにより,これまでの被クロールWebサイト単位での負荷分散でなく,Webクローラを構成するモジュール単位での負荷分散を実現する.つまり,Webクローラを構成する各モジュールが必要とする計算機資源に応じた分散処理が可能になり,計算機間での計算負荷やメモリ使用量の偏りを改善することができる.また,ホスト名やURLを管理するモジュールは時間計算量と空間計算量に優れたデータ構造を利用して構成されており,大規模なクローリングが省資源で可能になる.Web crawlers must collect Web data while performing tasks such as detecting crawled URLs and preventing consecutive accesses to a particular Web server. Parallel-distributed crawling is carried out at a high speed for the enormous number of URLs existing on the Web. However, in order to crawl efficiently, a crawler must realize load balancing between computers in addition to reducing time and space complexities in the crawling process. The Web crawler proposed in this paper crawls the Web using producer-consumer modules, which compose the crawler, and it realizes load balancing per module and not per crawled Web site. In other words, it realizes load balancing that is appropriate to certain computer resources necessary for the modules that compose the Web crawler; in this way, it improves biases in computation loads and memory utilization between computers. Moreover, the crawler is able to crawl the Web on a large scale while conserving resources, because the modules that manage host names or URLs are implemented by data structures that are temporally and spatially efficient.
著者
奥野峻弥 浅井洋樹 山名早人
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2014-DBS-159, no.12, pp.1-6, 2014-07-25

従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.
著者
上里和也 田中正浩 浅井洋樹 山名早人
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014, no.22, pp.1-6, 2014-07-25

Twitter のような大規模なソーシャルサービスにおいて,ユーザの興味や所属などのプロフィールを知ることは,効果的なマーケティングを行う上で重要である.このような背景から,Twitter におけるプロフィール推定に関する研究が行われてきた.従来のプロフィール推定手法では,フォロー情報によって構築されるソーシャルグラフからコミュニティを抽出し,対象のユーザが属するコミュニティの属性を推定することでプロフィール推定を行なっている.しかし,各々のフォローの目的や,活発な交流があるかという点を考慮することができないため,実際に親密な関係を持つユーザ群をコミュニティとして抽出することが困難であるという問題が存在する.それに対して奥谷らは,フォローに代えてメンション情報を用いてソーシャルグラフを構築することで,これらの問題を解決する手法を提案している.しかし同手法には,プロフィール推定の対象となるユーザの周辺ユーザのプロフィールに幅広く共通して出現する単語が,プロフィールとして出力されにくいという問題がある.そこで本論文では,奥谷らのプロフィール推定手法における単語の重要度の算出方法を変更し,Twitter ユーザ全体からランダムにサンプリングした 100,000 ユーザのデータを利用して一般語をフィルタリングすることで,この問題を解決する手法を提案する.6 人の被験者による実験の結果,奥谷らの手法と比較して,Precision@10 が 0.37 から 0.78,MRR が 1.44 から 2.61 に向上した.