著者
飯島 淳一 包 捷
出版者
東京工業大学
雑誌
萌芽研究
巻号頁・発行日
2003

テキストマイニングとは,テキストデータの特徴ベクトルにもとづくクラスタリングや自動分類を行うことであり.その中核となる技術として,特徴ベクトルの抽出やクラスタリング,パターン認識,情報推薦などがあげられる.これらの技術を様々なストリームデータに適用し,新たな知見を得ることが本研究の目的であり,それに関連する今年度の研究実績は大きく3つに分けられる:1.平成15年度の音楽データに続き,平成16年度では,クリックストリームデータ(ユーザがWebページ間で遷移する履歴)のマイニングを試みた.クリックストリームデータから,ユーザの情報探索行動のパターンを発見するために,同じ話題に関するWebページ間での移動回数など,独自な特徴ベクトルを用いた分析手法を提案した.この分析手法を,個人のウェブサイト,企業の公式ウェブサイト及びポータルサイトのクリックストリームデータに適用し,ユーザの行動パターンを明らかにすることによって,Webサイト運営の担当者が直観的に感じていたことを裏付けるとともに,Webサイト改善の方向に示唆を与えることができた.(文献1)2.マイニング技術を利用した情報推薦システムで試みされてこなかった「意外性」のある情報の推薦に注目し,利用者の新しい発見に繋がる情報,言い換えると意外性のある情報を推薦するために,マイナーグループと呼ぶ推薦者のグループを構成し,このグループから情報提供を受ける推薦システムを提案し,実装を行った.実装したシステムを利用し,学生を被験者として,映画作品推薦の実験を行った結果,意外性があり,且つ興味・関心を持て情報を提供できることを確認できた.(文献2)3.2001年から2003年に新品種として登録された272品種のバラの52週間の売上データを対象に,各週の売上を特徴ベクトルとして用いてクラスタリングを行った結果,バラ新品種が市場で受け入れられていく4種類のパターンを明らかにすることができた.(文献3)