著者
LindaChangvisommid 青野雅樹
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.305-306, 2013-03-06

特定の映画から興行収入を予測することは、研究者や映画制作者にとってもまだ難しい問題である。本研究では、映画のデータを入手し、そこから考えられる素性を検討した。次に、この素性を使って、興行収入を数値としてではなく、収入の範囲から5値あるいは9値等に分類し、分類問題に帰着させる。そこでSVM等を用いて映画の興行収入を予測する実験を行った。実験に用いるデータは、映画に関するオンラインデータベースIMDB(The Internet Movie Database)および興行収入情報のBox Office Mojoから取得した。素性には、映画のジャンル、出演者、監督、公開時期などを含み、これらの素性を用いて予測モデルを作成し、交差検証方法を用いてモデルの評価を行った。
著者
佐藤智博 青野雅樹
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.693-694, 2013-03-06

ウェブでの情報検索手段として検索エンジンが広く用いられている.しかし,検索エンジンによるランキングを不正に得る行為が横行しており,これをウェブスパムと呼ぶ.そのコンテンツは機械生成的に単語を羅列したり,近い意味の単語を組み合わせたりすることにより構成されていることが多い.そこで本研究は,ウェブスパム検出の為の効率的なコンテンツベース素性を抽出する手法を提案する.ウェブスパムコーパスに対し潜在的ディリクレ配分法(LDA)を適用することで,トピック毎に単語群を抽出することができる.これらから単語を選択しコンテンツベース素性とする.この素性を用いて機械学習によるウェブスパム検出を行い,提案手法の有効性を確認した.