著者
石川 永和 伊藤 彰則 牧野 正三
雑誌
全国大会講演論文集
巻号頁・発行日
vol.44, pp.177-178, 1992-02-24

現在我々は大規模な言語データベースの構築を行なおうとしている。データベース作成にあたっては大量のテキストを解析することが必要であり、これらのテキストを対して十分な語彙を持つ辞書を用意する必要がある。しかしながらあらゆるテキストに対処できる辞書を構成することは日本語の造語能力などの点から、因難である。またデータベース作成の趣旨からはテキスト中に辞書に記載されていない語が存在した場合この語の文法的性質や意味推定を行ない、最終的には新語として辞書に単語登録する段階に達することが望まれる。本稿ではデータベース作成の第一段階として行なわれる形態素解析において辞書未登録語を検出することを目的とする。従来さまざまな形態素解析法が提案されているがこれらは解析対象となるテキストに辞書未登録語が現れないことを前提としているものが多く、未登録語が存在する場合の動作は保証されていない。ここでは一旦形態素候補を作成した後、新たな形態素候補を加えることにより、未知語が存在しても形態素解析が行なえるアルゴリズムを開発することをねらう。

言及状況

はてなブックマーク (1 users, 1 posts)

[日本語][日本語教育学][卒論] 言語データベース作成のための形態素解析における未知語検出の検討

収集済み URL リスト