著者
安藤まや 関根 聡 石崎 俊
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.98, pp.77-82, 2003-09-29
参考文献数
6
被引用文献数
7

高度な自然言語処理を行なう際には、構文情報のみならずさまざまな語と語の関連情報が重要となってくる。我々は「トマトなどの野菜」といった定型表現を用いて、新聞記事から、名詞の下位概念を自動的に抽出する手法を提案する。7種の定型表現を作成し、6年分の新聞記事をコーパスとして下位概念を抽出した。その結果、ほぼ6割以上の正解率で下位概念が得られた。また、抽出した下位概念と、人間が連想した下位概念との比較をおこない、2人以上の被験者が連想した下位概念のうち、平均85%の下位概念をコーパスから自動抽出することができた。Not only syntactic information but also semantic relationships between words are important in advanced natural language processing. We describe a method to automatically extract hyponyms from newspaper. First, we discover patterns which can extract hyponyms of a noun, such as "A nado-no B (B such as A)", then we apply the patterns to the newspaper corpus to extract instances. The precision is 60-90 percent depending on the patterns. We compare the extracted hyponyms and those associated by human. 85 percent of the words associated by more than 1 person are extracted automatically.