著者
ホドシチェク ボル 山元 啓史
雑誌
じんもんこん2013論文集
巻号頁・発行日
vol.2013, no.4, pp.21-26, 2013-12-05

本研究は、現代日本語コーパスにおける中間語彙層の役割に焦点を当てその応用について示すものである。ここでいう中間語彙層とは、個々の単語の情報量を計算し、その情報量の序列において中間に位置する語彙である。一般的には、序列として使用頻度が用いられているが、本研究では各単語が持つ情報量の分布を用いる。頻度の高い語は機能語が多く、文の構造や語の係り受けを明示するが、内容としての情報量は少ない。一方、頻度の低い語は、トピック・内容をよく表した語か、珍しい語、固有名詞などである。頻度の低い語を利用すると領域毎に特化された情報が顕著になるあまり、共有語彙が少なくなり、文書間の比較や時系列の変動が分析しにくくなる。中間語彙は上記の2つの問題点について相互比較、時系列比較を可能にする語彙集合である。本稿ではその抽出の手法と応用例について述べる。