著者
西村 雅史 大嶋 良明 野崎 広志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.51, pp.117-118, 1995-09-20
被引用文献数
3

近年,欧米では単語のN-Gramのような統計的言語モデルを利用した口述筆記(Dictation)システムが,まだ離散単語発声ではあるが,実用化されはじめている.一方,日本語に関しては,語順に関する制約が弱いという知見から,N-Gramモデルの有効性について疑問視されていることや,単語の概念が明確でないため,離散発声単位として適したものがないなどの理由で,欧米と同様の構成のシステムはあまり研究されていない.日本語においても,潜在意識的ではあるが意味のある最小の単位としての単語が存在する.ただ,機械による処理を前提とする場合に用いる文法は,これとはまったく異なるものを単語として扱うのが一般的である.今回,実際に人間の振る舞いを観察することで,この"潜在意識的な日本語の単語"を抽出した.また,機械的に自動抽出された形態素解析結果との対応関係を推定することによって,この単語単位を自動生成し,N-Gramモデルを構築した.他の単位とパープレキシティによる比較を行った結果は,日本語においても(大語彙,離散単語発声による)Dictationが実現可能であることを示唆している.むろん,この単位は連続発声による認識にも容易に適用出来る.
著者
菅原 一秀 野崎 広志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.49, pp.211-212, 1994-09-20

オンライン文字認識装置において、単語の部分的な文字の入力からいくつかの候補単語を推定、表示し、それらの中からユーザーが選択できるようにしたい。本稿ではこの候補単語の推定のことを予備選択と呼ぶ。この予備選択により、高速に候補を部分的入力からも推定できるようになるので、ユーザーが速くペン入力を使用できるようになる。予備選択のためには、頻度情報を持った語い集と、一文字ずつの文字認識のスコア付の認識結果を使う。認識装置には誤認識はつきものであるが、選択すべきリスト中に正解単語が無いのは非常に不都合である。そこでこの予備選択時にはたとえ認識結果からの組み合わせからは出てこない単語でも、それが一文字の置換程度で得られ、かつ、頻度の高いあるいは語い集に載っているものならば、結果のリスト中に残るような、認識の耐雑音性とでもいうべき仕組みが必要である。また、予備選択は軽い処理である必要がある。これに時間がかかるようでは次の文字を入力した方が早いことになり意味がなくなる。本稿では、この2つの点、認識の耐雑音性と、処理の軽さを実現する手法として、単語ごとの文字の出現行列を使い、認識装置からの一文字ごとの認識結果に対しその文字が各単語に含まれているかどうかを調べるものを提案する。さらにインプリメンテーション、予備実験の結果を示す。
著者
野崎 広志 鳥原 信一
雑誌
全国大会講演論文集
巻号頁・発行日
vol.45, pp.251-252, 1992-09-28

日本語入力においてかな漢字変換入力が普及するにつれて、かな漢字変換結果を過信したり、また、かな漢字変換結果の誤りをうっかり見過ごしてしまうことがあるせいで、同じ読みを持つが意味の異なる単語(いわゆる同音異義語)の間違った使い方(同音語誤り)をした文書が増えている。例えば、「危機一髪」を「危機一発」と間違えたり,「鳥が鳴く」を「鳥が泣く」と間違えたり。本稿では、日本語入力されて出来上がった文書中に現れる、これらの同音語誤りを検出し、かつ訂正候補を提示するために,漢字かな変換とかな漢字変換と共起関係処理を組み合わせる方式を提案する。