著者
正田 備也
出版者
長崎大学
雑誌
基盤研究(C)
巻号頁・発行日
2014-04-01

この研究は規模の大きなデータの要約を目指しています。主に扱うのは文字で書かれたデータ、つまりテキストデータです。ニュース記事、学術論文、小説などがこれにあたります。テキストデータも量が多くなってくると、ひとつひとつ人間が目を通すわけにいかなくなります。そこで要約を作ります。この研究が作る要約は単語リストです。例えば「試合、ヒット、ピッチャー、トレード」という単語リストを見ると、私たちはこれが野球というトピックを表していると分かります。このような単語リストを膨大なテキストデータから自動的にいくつも取り出し、文章をひとつひとつ読まなくても何が書いてあるか分かるようにするのが、この研究の目的です。
著者
正田 備也 濱田 剛 柴田 裕一郎 小栗 清
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IE, 画像工学 (ISSN:09135685)
巻号頁・発行日
vol.108, no.324, pp.1-6, 2008-11-21

本論文では,LDA (latent Dirichlet allocation)言語モデルによる画像からの多重トピック抽出を,GPUを用いて高速化する手法を提案する.LDAはテキスト・マイニングのための確率モデルとしてBleiらにより提案されたが,近年,他のマルチメディア情報へも応用されている.そこで,本論文では,Wangの10,000 test imagesにLDAを適用し,多重トピック抽出をおこなう.LDAのためのパラメータ推定にはcollapsed変分ベイズ法を用いるが,Nvidia CUDA互換GPUを利用して推定を高速化する手法を提案する.
著者
正田備也 濱田 剛 柴田 裕一郎 小栗 清
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.88, pp.67-72, 2008-09-14

本論文では,latent Dirichlet allocation (LDA) のための collapsed 変分ベイズ推定を Graphics Processing Unit (GPU) を用いて高速化する方法を提案する. LDA は,ベイズ理論に基づくマルチトピック文書モデルとして知られているが, Expectation-Maximization (EM) アルゴリズムが利用可能な probabilistic latent semantic indexing (PLSI) など他の文書モデルに比べ,パラメータ推定が複雑で膨大な計算を要する.そこで, LDA のための deterministic なパラメータ推定方法として優れている collapsed 変分ベイズ推定を, GPU を用いて高速化した.実験では約 500 万組の文書と単語のユニークなペアについて, 1 つの Nvidia GeForce 8800 GT 上で collapsed 変分ベイズ推定を実行, 20 Gflops の計算速度を得た.In this paper, we propose a method for executing collapsed variational Bayesian inference for latent Dirichlet allocation (LDA) on Graphics Processing Unit (GPU). While LDA is a well-known multi-topic document model based on Bayesian methods, it requires complicated inference, which leads to enormous computations in comparison with other document models, e.g. probabilistic latent semantic indexing (PLSI), to which Expectation-Maximization (EM) algorithm is applicable. Therefore, we accelerate collapsed variational Bayesian inference, known as an efficient deterministic inference method for LDA, by using GPU. In the experiments, we used about 5 million unique pairs of documents and words. We achieved 20 Gflops on a single Nvidia GeForce 8800 GT.
著者
近藤 伸郎 正田 備也
雑誌
じんもんこん2020論文集
巻号頁・発行日
vol.2020, pp.297-302, 2020-12-05

本研究では,「全共闘世代」と呼ばれる世代とその周辺を対象としたアンケート・データをテキスト分析した.高齢化し鬼籍に入る者も少なくない全共闘世代の実態解明を目的として行われたのが本アンケートで,基本的な情報に関する設問に加えて,政治運動に参加した動機やメンタリティ,それを今どう考えているかの総括に関する設問もあり,回答者からは多数の自由記述的な言葉が寄せられた.それらを分析することで,世代の何らかの特徴を得られないか.今回は,テキストをまとめて形態素解析し,特定の二値カテゴリにしたがって分類器に学習させ,その分類器において重要度の高い特徴量を重要な単語としてあぶり出した.その上で,その重要語の特徴を考察した.
著者
正田備也 高須 淳宏 安達 淳
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.SIG11(TOD34), pp.14-26, 2007-06-15

文書分類のための代表的な確率論的手法にナイーヴ・ベイズ分類器がある.しかし,ナイーヴ・ベイズ分類器は,スムージングと併用して初めて満足な分類精度を与える.さらに,スムージング・パラメータは,文書集合の性質に応じて適切に決めなければならない.本論文では,パラメータ・チューニングの必要がなく,また,多様な文書集合に対して十分な分類精度を与える効果的な確率論的枠組みとして,混合ディリクレ分布に注目する.混合ディリクレ分布の応用については,言語処理や画像処理の分野で多く研究がある.特に,言語処理分野の研究では,現実の文書データを用いた実験も行われている.だが,評価は,パープレキシティという純粋に理論的な尺度によることが多い.その一方,テキスト・マイニングや情報検索の分野では,文書分類の評価に,正解ラベルとの照合によって計算される精度を用いることが多い.本論文では,多言語テキスト・マイニングへの応用を視野に入れて,英語の20 newsgroupsデータ・セット,および,韓国語のWebニュース文書を用いて文書分類の評価実験を行い,混合ディリクレ分布に基づく分類器とナイーヴ・ベイズ分類器の,定性的・定量的な違いを明らかにする.
著者
正田備也 高須 淳宏 安達 淳
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.11, pp.14-26, 2007-06-15
被引用文献数
4

文書分類のための代表的な確率論的手法にナイーヴ・ベイズ分類器がある.しかし,ナイーヴ・ベイズ分類器は,スムージングと併用して初めて満足な分類精度を与える.さらに,スムージング・パラメータは,文書集合の性質に応じて適切に決めなければならない.本論文では,パラメータ・チューニングの必要がなく,また,多様な文書集合に対して十分な分類精度を与える効果的な確率論的枠組みとして,混合ディリクレ分布に注目する.混合ディリクレ分布の応用については,言語処理や画像処理の分野で多く研究がある.特に,言語処理分野の研究では,現実の文書データを用いた実験も行われている.だが,評価は,パープレキシティという純粋に理論的な尺度によることが多い.その一方,テキスト・マイニングや情報検索の分野では,文書分類の評価に,正解ラベルとの照合によって計算される精度を用いることが多い.本論文では,多言語テキスト・マイニングへの応用を視野に入れて,英語の20 newsgroupsデータ・セット,および,韓国語のWebニュース文書を用いて文書分類の評価実験を行い,混合ディリクレ分布に基づく分類器とナイーヴ・ベイズ分類器の,定性的・定量的な違いを明らかにする.The naive Bayes classifier is a well-known method for document classification. However, the naive Bayes classifier gives a satisfying classification accuracy only after an appropriate tuning of the smoothing parameter. Moreover, we should find appropriate parameter values separately for different document sets. In this paper, we focus on an effective probabilistic framework for document classification, called Dirichlet mixtures, which requires no parameter tuning and provides satisfying classification accuracies with respect to various document sets. Many researches in the field of image processing and of natural language processing utilize Dirichlet mixtures. Especially, in the field of natural language processing, many experiments are conducted by using real document data sets. However, most researches use the perplexity as an evaluation measure. While the perplexity is a purely theoretical measure, the accuracy is popular for document classification in the field of information retrieval or of text mining. The accuracy is computed by comparing correct labels with predictions made by the classifier. In this paper, we conduct an evaluation experiment by using 20 newsgroups data set and the Korean Web newspaper articles under the intention that we will use Dirichlet mixtures for multilingual applications. In the experiment, we compare the naive Bayes classifier with the classifier based on Dirichlet mixtures and clarify their qualitative and quantitative differences.
著者
松尾 堅太郎 三好 正之 濱田 剛 柴田 裕一郎 正田 備也 小栗 清
出版者
一般社団法人映像情報メディア学会
雑誌
映像情報メディア学会技術報告 (ISSN:13426893)
巻号頁・発行日
vol.33, no.6, pp.201-206, 2009-02-04
参考文献数
9

位相限定相関法は画像マッチング・画像レジストレーションにおいて高いロバスト性とサブピクセル単位での高い精度を実現する計算方法であるが同時に計算コストが膨大であるという側面もある.これまで位相限定相関法の高速化には専用LSIやFPGAを用いた方法が試みられてきた.今回我々は新たにGPU(Graphics Processing Unit)を用いた位相限定相関法の高速化手法を考案し,Nvidia GPU,GeForce8800GTSへ実装を行った.GPU 1台当たりの処理時間に256×256 pixel画像が2.36秒,512×512 pixel画像が7.92秒,1024×1024 pixel画像が27.65秒で処理可能なことを確認し,これが過去の専用LSIやFPGAを用いた場合の計算速度と比較して約10倍程度高速であることを確認した.
著者
倉沢 央 正田備也 高須 淳宏 安達 淳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.36, pp.147-154, 2007-04-06

ビア・ツー・ビア(P2P)ネットワークを用いた情報検索では、低コストでありながら負荷分散や高いスケーラビリティが簡単に実現可能である。従来のノード単位でキーワードのインデキシングを行う手法では、ノードの評価が影響するため検索漏れを引き起こしやすい。また、同一ファイルの区別をしにくいためファイルの冗長化が難しい。そこで本稿では、P2P 情報検索における索引とファイルの分散配置手法、Concordia を提案する。(k n)閾値法を用いてファイルを分散符号化し、文書におけるキーワードの重みに応じてキーワードに対応付けする分散情報の数を決め、DHT 上にインデックスと分散情報を統合して配置することで、ファイルのクエリとの適合度を考慮した検索と、ファイルの総量を抑えた負荷分散とノードの離脱への対策を備えた効率の良い冗長化を実現する。Many Peer-to-Peer information retrieval systems use keyword-peer index and require peer selection techniques. Peer selection tends to fail the most relevant file and cannot identify replica files. We propose Concordia, a new distributed index and data allocation scheme for P2P information retireval, that searches and gathers relevant files based on its relevance to the query and realizes efficient redundancy for load balance and node departure. Our system makes n pieces from a data with (k, n) threshold scheme and places pieces based on the weight of a keyword on the peer related to the keyword index in DHT.