著者
金杉 友子 笠原 要 稲子 希望 天野 成昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.66, pp.119-124, 2002-07-15
被引用文献数
1

意味に関する言語処理技術の基盤となりうる概念辞書である"常識概念体系"を構築する第一歩として、人々の概念的な思考で共通して利用していると推定される基本的な語の集合("基本的語彙"と呼ぶ)を選定した.選定の対象としては学研国語大辞典(9万5千見出し語)を用い、選定の尺度として、心理実験により評定される単語の馴染み深さを表す単語属性である単語親密度を用いた.過去の研究において12歳児の理解語彙数の推測値が2万5千と報告されており、別の語彙数調査結果から、同数の語彙を成人の94%が知っていると推測される.そこで、基本的語彙数を2万5千程度と定めた.国語辞典の見出し語について、過去の単語親密度に関するデータベースに含まれていない3万3千語の追加の評定実験を行い、9万5千語から親密度が高い2万7千語を基本的語彙として実際に選定した.As the first step of constructing a dictionary of word concepts, the "Commonsense Concept Database," which will be a base for language processing technologies regarding meaning, we selected basic words which are supposed to be commonly used by Japanese adults. We selected the basic words from a Japanese dictionary in which the number of word entries is about 95,000. In a previous study, the size of the basic words which a Japanese child of twelve years knew was estimated to be 25,000. From the another recent psychological study estimating the number of the vocabulary in Japanese speakers, we were able to estimate that 25,000 of the Japanese basic words were known by 94% of Japanese adults. Therefore, we selected the number of basic words for Commonsense Concept Database to be 25,000. As a measure of selecting the basic word, we used word familiarity ratings. We did farther psychological experiments of rating familiarity of words in the Japanese dictionary which had not been listed in the word familiarity database previously published. Finally, we selected all words with a familiarity rating above five(between seven point scale) which gave us around 27,000 words out of the 95,000 entries of the dictionary.

言及状況

Twitter (1 users, 1 posts, 1 favorites)

こんな論文どうですか? 単語親密度に基づく基本的語彙の選定(金杉 友子ほか),2002 http://id.CiNii.jp/MTmjL 意味…

収集済み URL リスト