著者
辻河亨 吉田 稔 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.1, pp.155-162, 2004-01-14
被引用文献数
4

文書中から用語抽出を行う手法としては様々なものが提案されているが,多くはコーパスにおける用語候補の使用における統計量を利用するものであった。本稿では,これまで光が当てられていなかった用語を構成する語基間の関係について,そのグラフ構造に着目する。まずグラフにおける局所的ないし大域的構造を反映する用語抽出の指標を新たに提案し,その上で提案した用語抽出のいくつかの指標,およびそれらの組み合わせを,複数のコーパスを用いて実験的に評価した結果について報告する。Many methods to evaluate termhood of word sequences extracted from documents have been proposed. The majority of them use the statistics of term candidates appearing the corpus. The ignored side, however, is the graph structure whose nodes are basic terms that consist of complex terms. That is exactly what we focus on in this paper. We propose term extraction algorithms which utilize this graph structure. More precisely, the proposed methods assume the whole set of compound terms as a graph and applies web mining method to term extraction. The nodes are element words, the edges coincide with modifying relations between words in the definition of graph, and the importance of terms are ones used to find web communities or in ranking pages by Web search engines. Finally we experimentally evaluate the proposed algorithms with terminology dictionaries on Web.