著者
小山 照夫 影浦峡 竹内 孔一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.55-60, 2006-11-22
参考文献数
7
被引用文献数
8

テキストコーパスからの用語抽出は、自然言語処理技術の重要な応用である。従来テキストコーパスから用語候補を抽出する方法として、主として候補出現に関わる統計的指標を用いて用語性を判定する方法が採用されて来たが、統計的手法では出現頻度の低い候補についての判定が困難であった。今回の発表では、複合語に注目し、用語性を損なう形態素出現パターンを排除する形での用語候補抽出を行うことにより、高い精度で複合語用語抽出が可能となることを示す。Term extraction is one of the most important application of natural language processing technologies. Statistic criteria are widely adopted to evaluate the termhood of the extracted candidates. However, it is difficult to evaluate the termhood of less frequent candidates. In this study we propose a method for Japanese composite term extraction in which unproper morpheme patterns are eliminated. Using the new method, high precision of term extraction can be attained for Japanese composite terms.
著者
竹内 孔一 内山 清子 吉岡 真治 影浦峡 小山 照夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.5, pp.1446-1456, 2002-05-15
被引用文献数
8

本研究では,主辞がサ変名詞である複合名詞の語構成において,構成する単語間の係り関係を支配する語彙的性質に着目し,それに基づく複合名詞解析モデルの作成を試みる.主辞がサ変名詞の複合名詞内の係り関係の解析は,並列関係の場合を除くと,主辞であるサ変名詞の項関係なのか修飾なのかを同定することが解析の第1歩である.項関係とは名詞が動詞の目的語や主語といった関係であることを意味している.本論文では,この関係をとらえる方法として,語彙概念構造を利用した動詞の分類と,その構造を利用した名詞の分類に基づく複合名詞解析手法を提案する.情報処理関連の専門用語と新聞記事中の一般的な複合名詞に対してテスト的な実験を行った.その結果,平均で1231語の複合名詞対して約99.4%の複合名詞を正しく解析する結果を得た.In this paper,we describe a principled approach for analyzing relations between constituent words of compound nouns,specifically those whose heads are deverbal nouns,based on the classification of deverbal nouns by their lexical conceptual structure (LCS) and the classification of nouns in modifier position vis-a-vis LCS of head deverbal nouns.There are two kinds of relations of compounds with head deverbal nouns.The one is that a modifier noun becomes an argument of deverbal head and the other is that a modifier becomes an adjunct.It is an important starting point for analyzing relations to disambiguate the two kinds of relations.Through the qualitative analysis of the data and the experimental evaluation of 1231 compound nouns, we show that the use of LCS as the theoretical basis is very promising for constructing compound analyzer.