著者
横井 創磨 佐藤 一誠 中川 裕志
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.31, no.6, pp.AI30-C_1-9, 2016-11-01 (Released:2016-11-02)
参考文献数
16

Topic models are generative models of documents, automatically clustering frequently co-occurring words (topics) from corpora. Topics can be used as stable features that represent the substances of documents, so that topic models have been extensively studied as technology for extracting latent information behind large data. Unfortunately, the typical time complexity of topic model computation is the product of the data size and the number of topics, therefore the traditional Markov chain Monte Carlo (MCMC) method cannot estimate many topics on large corpora within a realistic time. The data size is a common concern in Bayesian learning and there are general approaches to avoid it, such as variational Bayes and stochastic gradient MCMC. On the other hand, the number of topics is a specific problem to topic models and most solutions are proposed to the traditional Gibbs sampler. However, it is natural to solve these problems at once, because as the data size grows, so does the number of topics in corpora. Accordingly, we propose new methods coping with both data and topic scalability, by using fast computing techniques of the Gibbs sampler on stochastic gradient MCMC. Our experiments demonstrate that the proposed method outperforms the state-of-the-art of traditional MCMC in mini-batch setting, showing a better mixing rate and faster updating.
著者
梶野 洸 坪井 祐太 佐藤 一誠 鹿島 久嗣
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

教師付き学習における教師データをクラウドソーシングを利用して作成する試みが広まっている.このようなデータは信頼性が低いため,真の教師データの推定や,このデータを用いた識別器の学習に関する研究が行われているが,真の教師データが一部存在する場合の研究は行われていない.本研究ではクラウドソーシングで得られた教師データと真の教師データを併用して直接識別器を構成する手法を提案し,その性能を検証する.
著者
佐藤 一誠 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
巻号頁・発行日
vol.48, no.19, pp.107-116, 2007-12-15

Unigram Mixtureは教師なし文書分類などで幅広く使われている確率的生成モデルである.Unigram Mixtureは,混合モデルであり,実際の適用にはユーザは混合数決定問題をつねにかかえている.近年,このような混合モデルにおいて,Dirichlet Processを用いたノンパラメトリックベイズモデルが注目を集めている.Dirichlet Processを用いることでデータに合わせてモデル構造(混合数)を変化させることができる.本研究では,Dirichlet Processにより拡張したUnigram Mixtureに対して,Collapsed変分ベイズ法を用いてモデル学習する手法を示す.対数尤度とF-scoreによる評価により従来手法に対する有効性を確認した.Unigram Mixture is a probabilistic generative model that is widely used in unsupervised clustering of documents. Unigram Mixture is a mixture model and have a problem of how to determine the number of clusters. Recently, a nonparametric Bayes model using Dirichlet Process has gotten a lot of attention in this problem. Models using Dirichlet Process can determine the number of cluster corresponding to data. In this paper, we expand Unigram Mixture by Dirichlet Process and present a scheme that learns the model by Collapsed Variational Bayes inference.
著者
横井 創磨 佐藤 一誠 中川 裕志
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:21888833)
巻号頁・発行日
vol.2015-MPS-103, no.5, pp.1-5, 2015-06-16

大規模な文書データに対して頻度分布のロングテールに位置する単語は情報量が少ないため,トピックモデルと呼ばれる単語の統計モデルを分布の背後に仮定することで,検索エンジンやオンライン広告などの性能が向上することが知られている.しかし,このような場面において用いられるトピックモデルは,予め仮定する潜在トピック数を高次元に設定する必要があり,計算速度や必要メモリ量が問題になる.トピックモデルの最も基本的なモデルである LDA に対して,大量の文書を扱える SGRLD LDA や高次元のトピックを扱える AliasLDA などの手法が存在するが,大量の文書・高次元のトピックを同時に達成するためには非効率的なアルゴリズムを巨大な計算機リソースを用いて実行しなくてはならない.そこで本研究では,これらの手法をうまく組み合わせることで効率的な計算を可能にする.また,勾配計算において更新の方法を工夫することにより,余分な空間を使わずに期待値計算を行うことができる.実験により,提案手法は大規模データかつ高次元トピックでも実行可能であり,さらに既存手法と比較して速く,特に高次元トピックでは 10 倍以上高速であることを示す.
著者
川端 貴幸 佐藤 一誠
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第31回全国大会(2017)
巻号頁・発行日
pp.1B2OS25b4, 2017 (Released:2018-07-30)

近年,チャットボットによる自然文でのFAQ応答システムのニーズが増えている.事前に用意されたFAQは想定質問と回答の対の集合からなり,FAQ応答システムとしては,入力された質問に対して,最も適切な回答をFAQから返すことが望まれる.本稿では,弊社のプロダクトであるAI MessengerにおけるチャットボットによるFAQ応答モデルについて提案手法を紹介し,Watsonとの比較実験の結果を示す.
著者
梶野 洸 坪井 祐太 佐藤 一誠 鹿島 久嗣
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.3, pp.243-248, 2013 (Released:2013-03-13)
参考文献数
9
被引用文献数
2

Crowdsourcing services are often used to collect a large amount of labeled data for machine learning. Although they provide us an easy way to get labels at very low cost in a short period, they have serious limitations. One of them is the variable quality of the crowd-generated data. There have been many attempts to increase the reliability of crowd-generated data and the quality of classifiers obtained from such data. However, in these problem settings, relatively few researchers have tried using expert-generated data to achieve further improvements. In this paper, we apply three models that deal with the problem of learning from crowds to this problem: a latent class model, a personal classifier model, and a data-dependent error model. We evaluate these methods against two baseline methods on a real data set to demonstrate the effectiveness of combining crowd-generated data and expert-generated data.
著者
小林 直樹 佐藤 亮介 五十嵐 淳 塚田 武志 吉仲 亮 海野 広志 関山 太朗 佐藤 一誠
出版者
東京大学
雑誌
基盤研究(S)
巻号頁・発行日
2020-08-31

プログラム検証とは、プログラムが正しく振る舞うかどうかを実行前に網羅的に検証する技術であり、ソフトウェアの信頼性向上のために欠かせないものである。本研究課題では、近年の機械学習技術の台頭とそれに伴うコンピュータによって制御されたシステムの社会への普及を踏まえ、(1)代表者らがこれまで研究を進めてきた高階モデル検査などの自動プログラム検証技術や理論をさらに発展させるとともに、(2)プログラム検証技術のさらなる飛躍のために機械学習技術を活用し、さらに(3)機械学習技術の台頭に伴うソフトウェアの質と量の変化に対応するための、新たなプログラム検証技術の確立を目指す。
著者
中川 裕志 佐藤 一誠
出版者
東京大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2012-04-01

プライバシー保護データマイニングのひとつである差分プライバシーは有望な方法であるが、データベースのレコード間に相関がある場合の分析があまり進んでいなかった。本研究では、相関がある場合に従来の差分プライバシーを適用した場合、データ入手を狙う攻撃者が相関に関する背景知識を少なく持っているほうが、流出する情報が大きいという直感に反する状況を明らかにし、この状況を改善するために背景知識も考慮したベイズ型差分プライバシーの数理モデルを確立した。この数理モデルにおいて情報漏洩の確率を与えられた閾値以下にする加算すべきラプラス雑音のパラメタを求める近似的アルゴリズムを示した。
著者
佐藤 一誠
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2015-NL-222, no.7, pp.1-1, 2015-07-08

ベイズ的最適化とは,入力から出力を得るコストが高いブラックボックス関数を効率的に最適化する手法の総称である.高コストなブラックボックス関数に対して,できるだけ少ない入力のステップでより最適化な出力を得ることを目的とする.例えば化学実験において,ある実験設定を入力として,得られた化合物の良し悪しが数値的に計測可能な場合に,より良い実験設定を探索する問題は,ベイズ的最適化の 1 つの応用例となる.近年,機械学習アルゴリズムの複雑化にともない,機械学習アルゴリズムの実験設定も複雑化しており,ベイズ的最適化によって機械学習の実験を効率化する研究が注目を集めている.例えば,word2vec に代表される単語のベクトル表現学習では,ベクトルの次元,窓幅,負例サンプリング分布のパラメータ,負例数,学習率などさまざまな実験設定があり,これらの効果的な実験設定を効率的に探索する必要がある.本発表では,ベイズ的最適化の入門から最先端の話題まで説明し,NLP の実験の効率化などについても触れる予定である.
著者
川端 貴幸 佐藤 一誠
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

近年,チャットボットによる自然文でのFAQ応答システムのニーズが増えている.事前に用意されたFAQは想定質問と回答の対の集合からなり,FAQ応答システムとしては,入力された質問に対して,最も適切な回答をFAQから返すことが望まれる.本稿では,弊社のプロダクトであるAI MessengerにおけるチャットボットによるFAQ応答モデルについて提案手法を紹介し,Watsonとの比較実験の結果を示す.
著者
佐藤 一誠 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.43, pp.25-28, 2007-05-17

Unigram Mixture(UM) は教師無し文書分類などで幅広く使われている確率的生成モデルである。UM は、混合モデルであり、実際の適用にはユーザーは混合数決定問題を常に抱えている。近年、このような混合モデルにおいて、Dirichlet Process(DP) を用いたノンパラメトリックベイズモデルが注目を集めている。DP を用いることでデータに合わせてモデル構造(混合数)を変化させることができる。本研究では、DP により拡張した UM に対して、collapsed Variational Bayes inferense を用いてモデル学習する手法を示す。対数尤度と F-score による評価により従来手法に対する有効性を確認した。UnigramMixture(UM) is a probabilistic generative model that is widely used in unsupervized clustering of documents. UM is a mixture model and have a problem of how to determine the number of clusters. Recently, a nonparametric Bayes model using Dirichlet Process(DP) has gotten a lot of attention in this problem. Models using DP can determine the number of cluster corresponding to data. In this paper, we expand UM by DP and present a scheme that learns the model by Collapsed Variational Bayes inference.