著者
石川 永和 伊藤 彰則 牧野 正三
雑誌
全国大会講演論文集
巻号頁・発行日
vol.46, pp.55-56, 1993-03-01

近年の自然言語処理システムでは文法をはじめとする各種言語情報は各単語ごとに分散記述,データベース化し,維持・管理することが多い.しかしこのデータベース化にはコストがかかること,タスクごとに変更を迫られるなどの点から作成の自動化が望まれている.これに当たっては大量のテキストを解析しなければならないが,辞書未登録語(未知語)については検出を行い,言語情報を付与する必要がある.本稿ではこの未知語検出に関する一方法を提案する.この方法は文節間の依存関係を表現した文節間文法を基礎とするもので,前報告で述べた疑似文節を用いた未知語検出法に採り入れることにより検出率が向上した.
著者
石川 永和 伊藤 彰則 牧野 正三
雑誌
全国大会講演論文集
巻号頁・発行日
vol.44, pp.177-178, 1992-02-24

現在我々は大規模な言語データベースの構築を行なおうとしている。データベース作成にあたっては大量のテキストを解析することが必要であり、これらのテキストを対して十分な語彙を持つ辞書を用意する必要がある。しかしながらあらゆるテキストに対処できる辞書を構成することは日本語の造語能力などの点から、因難である。またデータベース作成の趣旨からはテキスト中に辞書に記載されていない語が存在した場合この語の文法的性質や意味推定を行ない、最終的には新語として辞書に単語登録する段階に達することが望まれる。本稿ではデータベース作成の第一段階として行なわれる形態素解析において辞書未登録語を検出することを目的とする。従来さまざまな形態素解析法が提案されているがこれらは解析対象となるテキストに辞書未登録語が現れないことを前提としているものが多く、未登録語が存在する場合の動作は保証されていない。ここでは一旦形態素候補を作成した後、新たな形態素候補を加えることにより、未知語が存在しても形態素解析が行なえるアルゴリズムを開発することをねらう。