- 著者
-
丸山 岳彦
柏岡 秀紀
熊野 正
田中 英輝
- 出版者
- 一般社団法人 言語処理学会
- 雑誌
- 自然言語処理 (ISSN:13407619)
- 巻号頁・発行日
- vol.11, no.3, pp.39-68, 2004-07-10 (Released:2011-03-01)
- 参考文献数
- 35
- 被引用文献数
-
6
11
従来の文分割研究において, 文の分割点として利用されてきたのは, 「節」の境界である. しかしながら, 実際に文の分割点として用いられる節境界はごく一部の種類のものに限られており, 文に含まれる節境界を網羅的に検出する手法は考えられてこなかった. 我々は, 日本語の文に含まれる節境界の位置を網羅的に検出し, その種類を特定するプログラム“CBAP (Clause Boundaries Annotation Program)”を開発した. CBAPは, 形態素解析の結果を入力とし, 局所的な形態素の連接を対象としたパタンマッチによって, 147種類の節境界を検出する. CBAPを性質の異なる5種のコーパスに適用したところ, いずれのコーパスでも97%以上の検出性能が確認された. この検出結果を利用することにより, 言語学的に意味のある文の分割点を特定することができ, 従来の手法よりも柔軟に文分割を行なうことができる. また, 1~3形態素という非常に局所的な範囲のみから節境界を検出できるため, 発話に追従して処理を進めていく漸進的構文解析や同時通訳システム, また, 句点を含まない音声コーパスを対象とした発話分割処理などに有用である. 本稿では, CBAPによる節境界の検出手法を示し, 節境界を用いて文分割・発話分割処理を行なった事例をもとに, 節境界検出の有用性を述べる.