著者
正田 備也
出版者
長崎大学
雑誌
基盤研究(C)
巻号頁・発行日
2014-04-01

この研究は規模の大きなデータの要約を目指しています。主に扱うのは文字で書かれたデータ、つまりテキストデータです。ニュース記事、学術論文、小説などがこれにあたります。テキストデータも量が多くなってくると、ひとつひとつ人間が目を通すわけにいかなくなります。そこで要約を作ります。この研究が作る要約は単語リストです。例えば「試合、ヒット、ピッチャー、トレード」という単語リストを見ると、私たちはこれが野球というトピックを表していると分かります。このような単語リストを膨大なテキストデータから自動的にいくつも取り出し、文章をひとつひとつ読まなくても何が書いてあるか分かるようにするのが、この研究の目的です。

言及状況

はてなブックマーク (1 users, 1 posts)

Twitter (2 users, 2 posts, 0 favorites)

こんな研究ありました:タイニーデータマイニング:基底としての確率分布による大規模データの再構成(正田 備也) http://t.co/mVI3Hu2RzT
載ってた。 QT KAKEN - タイニーデータマイニング:基底としての確率分布による大規模データの再構成(26330256) http://t.co/O4IJCbYfp6

収集済み URL リスト