著者
横井 創磨 佐藤 一誠 中川 裕志
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:21888833)
巻号頁・発行日
vol.2015-MPS-103, no.5, pp.1-5, 2015-06-16

大規模な文書データに対して頻度分布のロングテールに位置する単語は情報量が少ないため,トピックモデルと呼ばれる単語の統計モデルを分布の背後に仮定することで,検索エンジンやオンライン広告などの性能が向上することが知られている.しかし,このような場面において用いられるトピックモデルは,予め仮定する潜在トピック数を高次元に設定する必要があり,計算速度や必要メモリ量が問題になる.トピックモデルの最も基本的なモデルである LDA に対して,大量の文書を扱える SGRLD LDA や高次元のトピックを扱える AliasLDA などの手法が存在するが,大量の文書・高次元のトピックを同時に達成するためには非効率的なアルゴリズムを巨大な計算機リソースを用いて実行しなくてはならない.そこで本研究では,これらの手法をうまく組み合わせることで効率的な計算を可能にする.また,勾配計算において更新の方法を工夫することにより,余分な空間を使わずに期待値計算を行うことができる.実験により,提案手法は大規模データかつ高次元トピックでも実行可能であり,さらに既存手法と比較して速く,特に高次元トピックでは 10 倍以上高速であることを示す.

言及状況

はてなブックマーク (1 users, 1 posts)

[あとで読む] "大規模データ・高次元トピックに対応したトピックモデル"

Twitter (2 users, 2 posts, 0 favorites)

2 2 https://t.co/aJY6aePIdC

収集済み URL リスト