著者
吉村 賢治 武内 美津乃 津田 健蔵 首藤公昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.30, no.3, pp.294-301, 1989-03-15
被引用文献数
24

実用的な日本語文解析システムにおいて 入力文中に存在する未登録語の位置や文法情報等の推定は不可欠な処理である.日本語文の解析手順は 形態素解析 構文解析 意味解析などの各解析を段階的に行うものと これらを融合的に行うものとに大きく分類できる.本論文では前者の方式を想定し,形態素解析の段階における未登録語の処理について述べる.本論文で示す形態素解析アルゴリズムは基本的に解析表を利用した横型探索のアルゴリズムであり 入力文中の一文字の漢字 平仮名や英字列 片仮名列を自立語と同等に扱うことにより未登録語の処理を可能にしている.このとき入力文の一文字ごとに自立語辞書を検索するという効率の問題やシステムにとっては正しいが本質的には誤っている膨大な数の解析が発生するという尤度評価の問題が生じる.これに対して本アルゴリズムでは 字種情報に基づいた文節末の可能性と解析の単位に対するコストの付与という二つのヒューリスティック情報を利用している.アルゴリズムの能率は入力文の文字数nに対して時間計算量 領域計算量ともにO(n)である.また このアルゴリズムにより入力文中の未登録語の90.9%を正しく処理できることを実験により確認した.

言及状況

はてなブックマーク (1 users, 1 posts)

Twitter (2 users, 2 posts, 3 favorites)

こんな論文どうですか? 未登録語を含む日本語文の形態素解析,1989 http://ci.nii.ac.jp/naid/110002764571 実用的な日本語文解析シ
@mamoruk http://ci.nii.ac.jp/naid/110002764571 にも、自立語コスト1、付属語コスト0とするコスト最小法 (接続表は使うが連接コストは0) は、文節数最小法と考えられると書いてありました。

収集済み URL リスト