著者
森 信介 伊藤伸泰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.69, pp.47-54, 2001-07-16

確率的言語モデルを基礎とする自然言語処理において、タグが付与された学習コーパスは重要であり、これを増量することが精度向上につながることがわかっている。しかしながら有意な精度向上のためには、学習コーパスを指数関数的以上に増加させる必要があり、このために必要なコーパスにタグを付与するコストは無視できない程度になっている。このような背景のもと、本論文では、タグなしコーパスの利用による形態素解析と仮名漢字変換の精度向上について述べる。実験では、タグなしコーパスの利用により、確率的言語モデルの予測力やそれに基づく仮名漢字変換の精度は有意に向上し、タグなしコーパスは0.87倍の量のタグつきコーパスに匹敵したが、形態素解析の精度向上は微小であった。A tagged corpus plays an important role in natural language processing based on a stochastic language model and increasing the corpus size improves the accuracy. It is, however, necessary for a meaningful improvement to incerase a corpus size more than expornentially and an annotation cost needed for it is not negligiable. In this paper, we discuss the usage of an untagged corpus. In the expreriments, using an untagged corpus improved the predictive power of a stochastic language model and the accuracy of a kana-kanji converter based on it. But for a tagger the improvement was slight.