著者
國府 久嗣 園田 勝英
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.35, pp.15-20, 2007-03-28

日本語テクストに含まれる語彙項目間のコロケーションに着目し、その状況を視覚化することでメッセージ分析を行なう方法について考察した。このとき統計手法としては主に多次元尺度構成法を用いている。本発表ではコロケーション定義のうち重要な部位をなす Span について、値や判定法を変化させた際の分析結果との相関について検討した。これによって語彙項目以外を Span に含まない方式には、分析結果が span の値によって過敏には左右されない特徴があることを明らかにしている。対象テクストが恒常的に有していると考えられるメッセージを抽出し分析するという観点からはこの性質はのぞましい点にも言及した。In this paper we will suggest that it will be useful for interpreting the message(s) of a Japanese text to visualize its frequencies of lexical collocations. The visualization is based on MDS. We explore into the effects of various settings of span. Span is currently considered to be the central parameter of the notion "collocation" in that two elements are said to be in collocation when they cooccur in a certain specified span. It is shown that various settings of the span length do not significantly affect the final configurations obtained through visualization, when span is defined with non-lexical, i.e. functinal, elements excluded. The result supports our initial suggestion because the message of a text we are trying to capture is one of its constant properties.