著者
相澤 彰子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.3, pp.1426-1436, 2008-03-15
参考文献数
23
被引用文献数
5

本論文では,タグなしテキストから類語関係を抽出するタスクを例にとり,自然言語処理における大規模コーパスの適用について考察する.近年ではウェブに代表される大規模なテキスト集合が利用可能となり,単純な手法でもコーパス規模が十分に大きければ,潜在的意味解析法(LSA)などの従来手法と比較しうる高い性能が得られるとの報告もある1).そこで論文中では,まず,大規模コーパスを用いた語の類似度計算における問題点を実際のデータに基づき調べる.次に,広範囲の語と共起する語が類似度計算におけるノイズとなるという前提のもと,ノイズ低減のためフィルタリング法,サンプリング法の2 つの方法を提案する.また,評価のための類語抽出タスクを設計し,新聞記事およびウェブ文書コレクションの2 つのコーパスを用いて,提案手法による性能改善を確認する.This paper focuses the utilization of large-scale text corpora in the task of synonymous relationship identification. Recently, large-scale text corpora became available for automatic synonyms extraction and it was reported that the performance of simple methods adapted to large-scale corpora was sometimes comparable to the one of more elaborative methods such as Latent Semantic Analysis (LSA) adapted to traditional linguistic resources 1). In this paper, assuming that the similarity calculation is affected by the co-occurrences with high frequent words, we propose two methods for reducing the bias. Also proposed is a method for extracting datasets for performance evaluation using both lexico-syntactic patterns and conventional human editing thesaurus. The effectiveness of the proposed methods is shown using newspaper and Web document collections.

言及状況

Twitter (2 users, 2 posts, 3 favorites)

ご報告を拝聴していると、文学の分野では、語の共起を測るのにJaccard係数よりSimpson係数を多く使う様子でしょうか。 確かに、データの種類によってはSimpson係数の方が性能が出るという報告もありますね。https://t.co/4xPpNcmQuW

収集済み URL リスト