著者
梅木 定博 後藤 智範
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.187, pp.1-6, 2008-09-17
参考文献数
9
被引用文献数
1

日本語のテキストにおいて、主要な概念・テーマは漢字熟語または漢字熟語を含む名詞句に表現されることが多い。特に数文字以上の漢字熟語は、より短い漢字熟語、すなわち語基(word base)から構成され、統語的、意味的構造を有している。大規模な漢字熟語集合について、これらの構造を分析することは、漢字熟語の造語特性・形態素解析・関連語の選定など様々な自然言語解析およびオントロジーの開発に有用な基礎データを提供するものと考えられる。本研究は、一般辞書および専門用語辞書の見出し語から8文字の漢字熟語を対象に、構成語基の観点から品詞列パターンおよび構成語基の係り受けパターンについて調査・分析した。
著者
梅木 定博 後藤智範
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.33, pp.113-118, 2008-03-28
参考文献数
8
被引用文献数
3

日本語のテキストにおいて、主要な概念・テーマは漢字熟語または漢字熟語を含む名詞句に表現されることが多い。特に数文字以上の漢字熟語は、より短い漢字熟語、すなわち語基(word base)から構成され、統語的、意味的構造を有している。大規模な漢字熟語集合について、これらの構造を分析することは漢字熟語の造語構造、形態素解析、関連語の選定、未知語の推定など様々な自然言語解析に有用な基礎データを提供するものと考えられる。本研究は、一般辞書および専門用語辞書の見出し語から7文字の漢字熟語を対象に、構成語基の観点から品詞列パターンおよび構成語基の係り受けパターンについて調査・分析した。Kanji compound words or noun phrase consisted in them intend to explain key concepts or themes in Japanese texts.. Especially long kanji compound words have these characteristics in academic papers or patent documents. Long kanji compound word, which has five letters more consists of short word bases and have syntactically and semantically structures. It should be much beneficial to study to a large set of long kanji words based on word base sequence patterns.Our research examines the patterns of the large set of kanji compound words with seven letters which are contained in entry terms of the various kinds of dictionaries. This paper reports the occurrences of kanji compound words and the number of parts of speech sequence per a word base sequence pattern.