著者
古川 直広 今泉 敦博 藤尾 正和 酒匂 裕
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.101, no.421, pp.85-92, 2001-11-08
被引用文献数
8

振込帳票などの項目内容を読取る場合、帳票種毎に項目位置が異なるため、入力イメージの帳票種を識別する必要がある。用紙サイズや罫線特徴を利用する従来方式では、それら特徴が類似した場合、帳票識別精度が低下する問題があった。そのため本報告では帳票種を特徴付ける文字列の組合せ(星座)を利用することによって帳票を識別する方式を提案する。166種653サンプルの評価実験から、正識別率97.1%、誤識別率0%、平均時間3.1秒となり本方式の有効性を検証した。
著者
藤尾 正和 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.12, pp.4201-4212, 1999-12-15
被引用文献数
14

本論文では,粗い日本語係り受け解析手法として,語の共起確率に基づく係り受け解析手法を提案し,その評価を行う.学習および評価用コーパスとしてEDRコーパスを使用し,文節および文単位の係り受け精度を調べる.またどのような係り受け関係名において誤りが多いのか調べるため,関係名ごとの解析精度も調べる.英語において,比較的近いモデルおよび情報を用いたCollins? (1996)のモデルと文節単位の係り受け精度を比較した結果,EDRコーパスを使用した日本語解析に関しては,我々のモデルの精度がCollinsのモデルを上まわった.また,現状の統計モデルのもとでさらに解析精度を上げるため,再現率を犠牲にして適合率を上げる手法(部分解析),および適合率を犠牲にして再現率を上げる手法(冗長解析手法)についても提案する.``確信度''(乾ら,1998)を使用した Globalのほか,Local/norm,Ratio/nextの3つの手法について評価を行った結果,少くとも我々の統計モデルを使用する場合,解析精度,速度などを考慮するとRatio/nextが優れているということが分かった.We present statistical models of Japanese dependency analysis based onlexical collocation probability.We use the EDR corpus for both training and evaluation,and evaluate the precision of the models in terms of correct dependencypairs and correct sentences.We measure the correct rate of dependencypairs for each type of dependency relation.To achieve higher performance under the current statistical parsingmodel, we propose a method that intend to acquire higher precision rateat the cost of recall rate (partial parse), and the method to acquirehigher recall rate at the cost of precision rate (redundant parse).We propose and compare three partial (redundant) parse methods,Global, Local/norm, Ratio/next, and find that Ratio/next is superior to others among our methods.