未登録語を含む日本語文の形態素解析

3 0 0 0 未登録語を含む日本語文の形態素解析

著者: 吉村賢治武内美津乃津田健蔵首藤公昭
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.30, no.3, pp.294-301, 1989-03-15
被引用文献数: 24

実用的な日本語文解析システムにおいて入力文中に存在する未登録語の位置や文法情報等の推定は不可欠な処理である.日本語文の解析手順は形態素解析構文解析意味解析などの各解析を段階的に行うものとこれらを融合的に行うものとに大きく分類できる.本論文では前者の方式を想定し,形態素解析の段階における未登録語の処理について述べる.本論文で示す形態素解析アルゴリズムは基本的に解析表を利用した横型探索のアルゴリズムであり入力文中の一文字の漢字平仮名や英字列片仮名列を自立語と同等に扱うことにより未登録語の処理を可能にしている.このとき入力文の一文字ごとに自立語辞書を検索するという効率の問題やシステムにとっては正しいが本質的には誤っている膨大な数の解析が発生するという尤度評価の問題が生じる.これに対して本アルゴリズムでは字種情報に基づいた文節末の可能性と解析の単位に対するコストの付与という二つのヒューリスティック情報を利用している.アルゴリズムの能率は入力文の文字数nに対して時間計算量領域計算量ともにO(n)である.またこのアルゴリズムにより入力文中の未登録語の90.9%を正しく処理できることを実験により確認した.

https://ci.nii.ac.jp/naid/110002764571

言及状況

はてなブックマーク (1 users, 1 posts)

Twitter (2 users, 2 posts, 3 favorites)

こんな論文どうですか？未登録語を含む日本語文の形態素解析,1989 http://ci.nii.ac.jp/naid/110002764571 実用的な日本語文解析シ

2 @nnniatuuu @nobyuki

@mamoruk http://ci.nii.ac.jp/naid/110002764571 にも、自立語コスト1、付属語コスト0とするコスト最小法 (接続表は使うが連接コストは0) は、文節数最小法と考えられると書いてありました。

1 @niam

収集済み URL リスト

https://ci.nii.ac.jp/naid/110002764571 (3)