本論文では,単語の意味を単語間の連想関係を表す確率分布として表現し,その定式化と連想確率の獲得について述べる.単語の意味的な重みを表す指標として単語の共起確率分布の情報量から計算される連想情報量を提案し,共起確率との組み合わせにより連想確率を計算する.連想はMarkov過程の上で行われ,その状態確率分布として意味が定義される.状態遷移として連想を行うことによって,直接共起しない語の意味的な関係が表現できる.また,確率ベクトルとして捉えた意味のスケール変換として文脈を捉え,先行単語集合の数を仮定しない非線型な更新式を提案し,これにより文脈の強化と順序への依存が表現できることを示す.現実のテキストから意味を獲得し,文脈をモデル化することで,意味的類似度や文脈解析だけでなく,情報検索などにおいて様々な実際的な意味処理が可能になる.This paper describes meanings of a word by stochastic association. First, we propose a new indicator of semantic informativeness of a word by its co-occurrence distributions. Second, we define the association probability by a combination of co-occurrence probability and the indicator. Then, regarding context as a vector of scaling factors against semantic vector, we propose a nonlinear formula of context succession to show its validity in modeling reinforcement and order depencency of context. Stochastic treatment of meaning and its aquisition from texts is useful in real semantic processing.
[natural language processing]
連想確率(共起確率を平均分岐数で割ったもの):a(j|i)∝p(j|i)ap(j)、連想情報量(平均分岐数の逆数)ap(x)=e^-H(x)、平均分岐数e^H(x)、相互情報量H(x)=-Σp(w|x)log[p(w|x)]、共起確率:p(j|i)=n_ij/Nc, Nc=すべてのペアの頻度