著者
西村 雅史 伊東伸泰 山崎 一孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.4, pp.1395-1403, 1999-04-15
被引用文献数
27

我々は先に 日本人が感覚的にとらえている単語単位を 既存の形態素解析プログラムの出力である形態素単位との統計的対応関係から自動推定する方法を提案し それを認識および発声の単位とする離散単語発声の日本語ディクテーションシステムを構築した. この人間の考える単語単位を連続音声認識の認識単位としても利用することを試み 特に 他の大語彙連続音声認識システムで用いられることの多い形態素単位と比較してその有効性について調査した. また 認識単位の定義が一意に決まらない現状をふまえて 日本語の連続音声認識システムの評価方法を提案するとともに 不特定話者の大語彙音声認識実験結果について報告する. 男女各10名に対する認識実験の結果 文字誤り率3.0% 単語誤り率4.3%が得られた. さらに 句読点の自動挿入方法や 未知語モデルと単語N-gramモデルによる単語単位の自動分割方法などについても述べる.In this paper, we discuss a word-based continuous dictation system for Japanese. We previously proposed a statistical method for segmenting a text into words on the basis of human intuition, and developed an isolated-word-based Japanese dictation system. By comparing the word units used for the isolated word recognition with grammatical units, we show that the former are also very useful for continuous speech recognition. Evaluation of the performance of this continuous dictation system showed that the character error rate was 3.0%, and that the word error rate was 4.3%. We also present a method for inserting punctuation marks in spoken texts automatically, and a method for segmenting Japanese text into words by using an N-gram model, focusing on the handling of unknown words.
著者
伊東伸泰 丸山 宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.33, no.5, pp.664-670, 1992-05-15
被引用文献数
22

著者らは既存の日本語印刷文書をハイパーメディアなどのデータベースに効率よく入力・運用する目的で文書理解システム(DRS:Document Recognition System)を開発中であるが その機能の1つとしてOCRで認識された文字中から日本語文の制約を利用して誤りを検出 オペレータに警告し 可能な場合はより確からしい候補に置き換える後処理を実現した本後処理は日本語辞書と品詞間接続テーブルを参照して文法的に、成立する文字列の候補を生成した後 各単語の品詞 出現頻度 遷移確率 および認識の確からしさに基づいてコストを計算しその値が最良のものから一定値以内の候補パスを選び出すそして各カラムの文字候補について 自分自身を通る候補パスに付随するコストと他の文字を通るパスのそれから確信度を計算し その値により当該候補の入れ替えや オペレータに対する警告を行う実験によれば後処理なしで95%程度の認識率であったデータで認識率が約99%に向上し 検出されなかった(言い換えれば入れ替え 警告のいずれも行われなかった)誤認識文字は02%程度にとどまった候補パスを見出す探索には動的計画法とピームサーチを用いることで 803866(25MHz)のパーソナルコンピュータ上で約27文字/秒の実行速度が得られた
著者
伊東伸泰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.79, pp.37-44, 1993-09-16
被引用文献数
7

文字遷移確率モデルによる後処理は文節等が終了しなくとも処理が可能なため、辞書引き法と比較して実時間性の要求が大きいオンライン文字認識の後処理に適゛している。日本語では少数の表音文字(仮名)と数千個の表意文字(漢字)が併用される。このため日本語を遷移確率モデル(?gr)で記述しようとすると、漢字に対してはBigramですら相当量の記憶容量と学習用テキストを必要とし、かつ仮名に対しては(を大きくとらないと)十分な制約にならないというアンバランスが発生する。そこで文字遷移確率に品詞を属性として導入して、仮名に対してはより強い制約とすること、および漢字は品詞ごとのマクロ文字にグルーピング、縮退させることにより、このアンバランスを解消する手法を提案し、日本語のBigramを用いた効果的な文字認識後処理法を実現した。新聞約300万字を学習用テキストに用いた実験の結果、Perplexityが100以下になり、正解が候補内にある内の約半分が救済できることがわかった。This paper deals with a postprocessing method based on the n-gram approach for Japanese character recognition. In Japanese a small number of phonetic characters (Kana) and thousands of Kanji characters, which are ideographs, are used for describing ordinary sentences. In other words, Japanese sentences not only have a large character set, but also include characters with different entropies. It is therefore difficult to apply conventional methodologies based on n-grams to postprocessing in Japanese character recognition. In order to resolve the above two difficulties, we propose a method that uses parts of speech in the following ways. One is to reduce the number of Kanji characters by clustering them according to the parts of speech that each Kanji character is used in. Another is to increase the entropy of a Kana character by classifying it into more detailed subcategories with part-of-speech attributes. We applied a bigram approach based on these two techniques to a post-processing in online hand-written character recognition Our source text (learning data) included about 3 million characters from a Japanese national newspaper. Tests showed that our method reduced the perplexity of Japanese to less than 100 and resolved the imbalance between Kana and Kanji characters, and that it rectified about half of all substitution errors when the correct characters were among the candidates.