著者
比留間 正樹 奈良 雅雄 田村 直良
雑誌
全国大会講演論文集
巻号頁・発行日
vol.55, pp.53-54, 1997-09-24

本研究では, 比較的長い論説文を対象とした, 文章解析の重要な要素であるセグメンテーションの手法について論じる。計算機ネットワークの発達に伴い, 電子化された大量の文書が入手可能となっている今, それらを効率よく利用するために, 文書理解, 自動抄録などの文書処理技術が求められている。文章の構造化はそれらの処理の前提となる過程であるが, 非常に知的な処理である。しかし, 大量の文書を高速に処理するためには, なるべく深い意味解析に立ち入らずに表層的な処理を行なうことが求められる。また, 対象となる文章が長ければ長いほど, 構造化を行なうことは困難であると同時に正確性に欠ける。そこで, 本研究では構造化の困難な長い文章に対して, 構造化の重要な要素であるセグメンテーションの手法について検討する。セグメンテーションを行なう手法としては, 語彙的結束性や手がかり語の情報など複数の知識を用いた手法などが提案されている。この手法は統計的にトップダウン的処理で, セグメンテーションを行なっている。しかし, そのような手法では, 局所的な連接関係, つまり接続表現や文末表現からセグメントの境界としてふさわしくない位置に対しても, 評価閲数の値のみからセグメンテーションを行なってしまう可能性がある。本研究では, 田村らが提案したトップダウン的, ボトムアップ的アルゴリズムを再帰的に行なうことで, トップダウン的アプローチの欠点をボトムアップ的アプローチで補いながらセグメンテーションを行なうものである。