著者
西村 雅史 大嶋 良明 野崎 広志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.51, pp.117-118, 1995-09-20
被引用文献数
3

近年,欧米では単語のN-Gramのような統計的言語モデルを利用した口述筆記(Dictation)システムが,まだ離散単語発声ではあるが,実用化されはじめている.一方,日本語に関しては,語順に関する制約が弱いという知見から,N-Gramモデルの有効性について疑問視されていることや,単語の概念が明確でないため,離散発声単位として適したものがないなどの理由で,欧米と同様の構成のシステムはあまり研究されていない.日本語においても,潜在意識的ではあるが意味のある最小の単位としての単語が存在する.ただ,機械による処理を前提とする場合に用いる文法は,これとはまったく異なるものを単語として扱うのが一般的である.今回,実際に人間の振る舞いを観察することで,この"潜在意識的な日本語の単語"を抽出した.また,機械的に自動抽出された形態素解析結果との対応関係を推定することによって,この単語単位を自動生成し,N-Gramモデルを構築した.他の単位とパープレキシティによる比較を行った結果は,日本語においても(大語彙,離散単語発声による)Dictationが実現可能であることを示唆している.むろん,この単位は連続発声による認識にも容易に適用出来る.