著者
グェンファムタンタオ 岡部 誠 尾内 理紀夫 林 貴宏 西岡 悠平 竹中 孝真 森 正弥
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.1, pp.269-283, 2011-01-15

本稿では,web上の大量のレビュー情報を要約する際の基盤技術として,単語を意味的カテゴリに分類するための手法,Bautextを提案し評価する.Bautextは弱教師付き手法であり,係り受け関係と相互情報量に基づいた名詞・名詞句のカテゴリ分類を行う.Bautextの特徴は以下の4つである.1)既存のブートストラッピング法等は,性能が多数のパラメータに依存するため,ユーザは良い分類精度を得るためのパラメータ設定を試行錯誤して見つける必要があった(小町ら,2010).一方,Bautextにおいてはユーザは多数のパラメータ設定をする必要がなく,少数の種語を与え,各カテゴリと単語の関連度(配属スコア)を計算することにより,漸次種語を増加させ,分類を自動化させている.2)既存のブートストラッピング法では,反復ごとに多数のカテゴリが1つの単語を獲得しようとするときに再度評価のステップがあった.一方,Bautextにおいては,各カテゴリが独立な特徴語集合を持ち,それをもとに各カテゴリへの単語の配属スコアを計算し,最大スコアのカテゴリが単語を獲得することでこの再度評価のステップをなくした.そのため,ブートストラッピング法と比べて高速な分類アルゴリズムとなっている.3)既存のブートストラッピング法では意味ドリフトという課題がある.意味ドリフトの原因は,反復処理の過程において,新しい単語を獲得するために使われる抽出パターン数が定数個であるため,以前の各反復で抽出できた適切な抽出パターンの影響が消されることにあると考えられる.これに対して,Bautextでは,各カテゴリが,独立な特徴語集合に今まで抽出できた適切な特徴語(抽出パータンと同じ役割)を保存することと反復ごとに分類対象の単語をランダムに選択させることにより,意味ドリフトを制御する効果が期待できる.4)目的の分類カテゴリに加えて「その他」カテゴリを導入することで,本来評価対象となりえない単語が「その他」カテゴリに移動し,目的の分類カテゴリの適合率が向上するという特徴がある.評価実験では,まず「その他」カテゴリの導入効果を確認した.また,代表的なブートストラッピング法であるBasiliskおよびEspressoの2手法とBautextとを比較し,両者に比べ,Bautextが分類精度,速度,使いやすさの3点において有効な手法であることを確認した.We present and evaluate Bautext, a method for classifying terms into semantic categories, as a fundamental technique used for review summarization of drastically increasing volume of user reviews on the internet. Bautext is a minimally supervised technique for classifying nouns and noun phrases based on dependency relations and mutual information. Bautext has four important features. 1) There is no parameter that the user must manipulate except for seed words. Using an existing bootstrapping method, the user has to find a reasonable setting of multiple parameters by trial and error, on which the classification accuracy heavily depends (Komachi, et al., 2010). On the other hand, Bautext has no such a parameter, and after specifying seed words, no user intervention is required. 2) Bautext is a fast method compared with state-of-the-art bootstrapping methods. 3) Bautext is supposed to constrain sematic drift with independent feature sets for each category and the randomly choosing a term for classification in each classifation step. 4) We introduce "other" category to improve the precision. Adding an extra "other" category to the target categories, it is possible to improve the precision significantly on the trade-off between precision and recall. In our experiment, we compare Bautext with two major bootstrapping methods, Basilisk and Espresso, which show that Bautext is superior in classification accuracy, computational expense, and usability.