- 著者
-
鈴木 英二
中挾 知延子
近藤 邦雄
佐藤 尚
島田 静雄
- 雑誌
- 全国大会講演論文集
- 巻号頁・発行日
- vol.52, pp.61-62, 1996-03-06
- 被引用文献数
-
2
本研究の目的は、漢字1字単位の電子化漢字シソーラスを構築し、それを日本語文章の語句解析へ利用することである。従来の日本語電子化シソーラスは、名詞を中心に単語別に分類したものが多い。人間の大人の平均的な語彙数は約4万語であり、大量の新語が毎年生ずることを合わせて考えてみると、そのシソーラスのサイズは莫大なものとなる。そこで、我々は日本語の単語を構成する文字、特に漢字に注目した。漢字は表意文字であり、1字のみで最小の単語の役目を持っている。通常、文章で使われる漢字の総数はJIS第1水準で約3000字であり、これは英米語の基本単語数とほぼ一致する。同時に漢字は、日本語文章において仮名と組み合わせることによって、名詞・用言などの自立語を構成できる柔軟性がある。さらに、漢字には訓読みが与えられており、和語として日本語の語彙を広範に表現できる。その漢字の造語能力の高さが、大量の新語が生ずる原因ともなっているが、新しい漢字の発生とその利用の固定は滅多に起きず、安定した語の集合を保っている。この理由は、漢字の使い方に名詞・動詞・形容詞・副詞など、品詞別の用途に規則があるからである。漢字の有するこれらの特長を利用できれば、日本語文章の解析に役立つと我々は考えた。また、外国人への日本語教育、とりわけ漢字を教育する時の利用も考慮している。漢字1文字に複数の読み方が与えられており、それが外国人が漢字を学習するに当たって困難さを増している。読み方が解らないために、辞書を引くこともままならないという事態が発生する。そのため、漢字仮名混じり文から読みだけでも解れば、有用なものとなると我々は考えた。以下、第2章で今回構築した漢字シソーラスの概要を示し、第3章でそれを日本語文章の語句解析へ利用したものの一例を述べる。最後にまとめを第4章として示す。