著者
村本 英明 鍜治 伸裕 吉永 直樹 喜連川 優
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3338-3348, 2011-12-15

近年のWeb上のCGM拡大により,社会分析やマーケティングの対象としてWebテキストに大きな注目が集まっている.そうしたテキストから有用な情報を抽出するためには,多義語の意味を正確に区別する処理(語義曖昧性解消)が非常に重要となる.しかし,訓練事例や辞書といった,語義曖昧性解消に必要な言語資源の構築には大きな作業コストが発生することから,高い精度で語義曖昧性解消を行うことは依然として実現困難となっている.特に,Webテキストのように多様な話題を含んだテキストを対象とする場合,この問題はいっそう深刻なものとなる.この問題の解決を図るため,本論文では,既存のWeb資源を活用することによって,語義曖昧性解消に必要な言語資源を半自動的に構築するための方法を提案する.実験においては,WikipediaとWebテキストに対して提案手法を適用することによって,実際に大規模な言語知識が構築可能であることを確認した.また,それらの言語資源をもとに語義曖昧性解消システムを構築し,その性能についても調査を行った.With the recent advent of consumer generated media (CGM) on the Web, the textual data on the Web has been given much attention as a target of social analysis or marketing. To extract useful information from such texts, it is crucial to precisely distinguish meanings of polysemous words (i.e., word sense disambiguation or WSD). However, due to the tremendous labor required to build a large amount of linguistic resources for WSD (e.g., training examples or dictionaries), it is still hard to perform WSD with enough accuracy. This is especially problematic in dealing with Web texts, which contains much more diverse topics than conventional news articles. To overcome this, we present a semi-automatic approach to building those linguistic resources from existing Web data. Our experiments confirmed that the proposed method is indeed able to build much larger linguistic resources than existenting ones. We also investigated the performance of WSD systems learned from those linguistic resources.