著者
白川 真澄 中山 浩太郎 原 隆浩 西尾 章治郎
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.5, no.3, pp.51-63, 2012-09-28

語句をカテゴリ (トピック) に分類した概念辞書は,文書分類をはじめ様々なアプリケーションの基盤リソースとして必要とされている.代表的な概念辞書である WordNet は一般語を網羅的に定義しているが,固有名詞や専門用語,新語はあまり網羅されていない.一方,大規模 Web 百科事典である Wikipedia はそのような語句を数多く定義しており,また,語句を分類するためのカテゴリ構造を有している.しかし, Wikipedia のカテゴリ構造は,複数の親やループを許容するネットワーク構造であるため,ある語句がどのカテゴリに属しているかを判別するのは難しい.そこで本研究では,グラフ理論に基づいて Wikipedia のカテゴリネットワークを解析し,確率的に語句を分類する手法を提案する.また,語句の確率的分類の結果を教師データとし,ナイーブベイズによる文書分類を行う. Web 検索のスニペットを代表的な 8 カテゴリに分類するタスク,および科学に関するニュースのスニペットを 8 つの領域に分類するタスクにおいて評価を行い,提案手法の有効性を確認した.

言及状況

Twitter (2 users, 2 posts, 0 favorites)

収集済み URL リスト