- 著者
-
久光 徹
新田 義彦
- 雑誌
- 全国大会講演論文集
- 巻号頁・発行日
- vol.42, pp.1-2, 1991-02-25
- 被引用文献数
-
3
形態素解析において生じる多数の解を、尤度により序列化して出力するための統一的な手法として「接続コスト最小法」を提案し、未登録語を含む教科書の文1000個を用いた実験結果を報告する。日本語のように単語間に切れ目を置かない膠着言語の文の処理において、形態素解析は第一の関門である。形態素解析の解の個数は、一般に文字列の長さの指数関数となるため、解を効率よく尤度付けして出力する技術の確立が望まれる。個々の解の間の尤度を比較する手法は数多く提案されているが、尤度の高い順に解を導出するための計算量を評価した論文は少ない。その少数のうちの代表例として[4]があげられる。[4]は文節数最小法の基礎を与えるものであるが、全解を文節数により分類し、文節数の少ない解から出力するための解析表(付録参照)を、文字数nに関して時間計算量0(n^2)で作製するアルゴリズムを与えている。しかし応用の観点からは、文節数だけでは尤度基準として弱いため、文節数最小解を求め、「自立語の後は付属語が来るものを優先する」などの基準を援用してさらに詳細な尤度付けをすることが多い。しかし、文節数最小解の個数は、一般に文字数の指数関数となるため、最尤解の出力に多大の時間を必要とする恐れがある。したがって、文節数最小法よりきめ細かい尤度付けができ、かつ、妥当な計算量が保証された手法を基礎付けることが望まれる。本報告では、そのような尤度付き形態素解析の手法を、実験結果と共に報告する。