- 著者
-
中園 薫
- 雑誌
- 全国大会講演論文集
- 巻号頁・発行日
- vol.49, pp.375-376, 1994-09-20
人間が音声知覚するとき、耳から聞こえる音だけでなく、視覚の影響も受けていることが知られている。たとえば、「ぱ」という音声と「が」と言っている口の動きの画像とを合わせて提示すると、他の音一一たとえば「だ」ーーに知覚される(McGurk効果)。本稿では、音声知覚に影響を与えるのは動画像情報の中のどんな要素なのか、画像のフレームレートなどを変化させ、聴取実験をおこなうことによって議論する。文献において、フレームレートが変わると、McGurk効果によって異聴が生じる度合が変わることを示した。しかし、フレームレートの変動によって生じるどのような視覚的刺激の変化要因が音声知覚に影響を与えたのか、真の原因を特定するまでには至らなかった。ここでは、その要因として、(1)画像の動きがとびとびに不自然になることによって聴覚に与える影響を阻害する、(2)動画像のコマを間引くことによって音韻の決定をする上で重要な特定の視覚的刺激を持った画像(コマ)が落ちる、の2つを考える。この特定のコマとは、唇音と非唇音の間で異聴が顕著に見られることから、「唇を閉じた瞬間」の画像であると予想できる。そこで、今回は、口を閉じた状態から「ば」と1回だけの発声したデータと、その前に「あ」の音をつけた発声したデータの2種類を用意した。(前者を"ba-type"、後者を"aba-type"と呼ぶ)そして、音声波形を見ながら、「ぱ」の音の立上りの瞬間からちょうど1秒前を開始点とし、そこから2秒間を刺激データの素材として切り出すことによって、刺激ごとの時間軸を正規化した。[figre1]この素材をもとに、30fps,15fps,10fps,5fps,3fpsの刺激データをダウンサンプルした。これによって、どの刺激データも音の立上りの瞬間の画像を含むことなる。さらに、aba-typeの刺激については、フレームレートが十分低いときに[figre1]に示したようにサンプルするフレームを半分ずらすと、口を閉じる瞬間がまったく入っていない刺激が作れる。(こうして作った刺激データを"15fps-Shift"と呼ぶ)これらの刺激データを使って、提示、聞き取りの実験を行った。