著者
峯松 信明 西村 多寿子 櫻庭 京子 朝川 智 齋藤 大輔
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.37-42, 2007-07-19
被引用文献数
3

発達心理学では幼児の言語獲得を「音声模倣」という言葉で表現するが,通常,声(音)を模倣しようとする幼児はいない。一方,九官鳥の「音声模倣」では彼等は声(音)を模倣する。何故,幼児は声(音)を模倣しようとしないのか?音の音色は共鳴特性に支配されるため,音を模倣する場合,親が持つ声道と同様の形状を有する声道が必要となり,結局,親と同じ体格が要求される。よって,物理的に声模倣は不可能である。では,何故,模倣しようと努力しないのか。そもそも,物理的に異なる二つの音ストリーム(例えば,父・母の「おはよう」)を何故「同一である」と感覚するのだろうか?「聞こえた音を音韻(仮名)表象に変換し,音韻列としての同一性を認知する」との仮説も可能であるが,発達心理学はこれを否定する。何故なら,分節音及び音韻意識は「後天的に学習されるもの」だからである。本研究は,上記問いを数学及び物理の問題として捉え,「音色の相対音感」という新概念を提案することで解く。提案する枠組みは,一つの帰結として「孤立音を音韻として同定する能力は音声言語運用の必要条件ではない」という命題を主張するが,欧米圏に数多く存在する発達性ディスレクシアが該当する症状を呈している。
著者
峯松 信明 西村 多寿子 西成 活裕 櫻庭 京子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.98, pp.1-8, 2005-05-20
被引用文献数
14

『音声知覚の容易性と音声物理の多様性』音声研究者を長年悩ませ続けてきた古典的問題である[1]。音声科学は, 音素に対する音響的不変量の不在から, 調音運動にその答えを求めている(運動理論)[2]。その一方で音声工学は, 膨大なる音声データの収集とその統計的モデリングにその答えを求めている(隠れマルコフモデル)[3]。問題は解かれたのか?否である。本研究は, これらとは全く異なる方法で一つの解答を与える。その際, 「構造不変の定理」と呼ぶ数学定理を導入する。この数学定理の上で, 「何故言語(記号とその操作体系)は空気振動に宿ったのか?」「言語が宿るということは, 空気振動に如何なる物理特性を要求するのか?」という問題を意識して音声モデリングを再考し, 上記問題に対する解答, 音声ゲシュタルト, を導出する。本稿では, この導出が, 認知心理学, 生態心理学, 認知言語学, 障害学, 及び, 複雑系研究を通して音声言語コミュニケーションを捉え直すことと等価であることを示す。更に, 音声研究史に対する一つの提言を行なうと同時に, 言語の獲得, 及び, 言語の起源についても考察する。
著者
峯松 信明 西村 多寿子 朝川 智 櫻庭 京子 齋藤 大輔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
巻号頁・発行日
vol.2007, no.75, pp.75-80, 2007-07-20
参考文献数
30
被引用文献数
3

一つの言語には通常数十種類の音素(phoneme)がある。しかし音素の音的実体は前後文脈(音素環境)などによって多様に変形し,異音(allophone)と呼ばれる。音素と比較して種類数も多く,より具体的な音的現象に対応している。しかし奇妙なことに,これら音的事象を記号を用いて記す場合,性別,年齢,収録・伝送機器特性などによる音の変形(非言語的要因による音響的変形)は一切無視される.その音響的変形が幾ら大きくても,である。音声認識の音響モデリングは,凡そ,異音に相当する音事象をtriphoneとしてモデル化しているが,「非言語的変形の無視」を実装するために,数万人の話者から,様々な環境で収録した音サンプル群を統計的にモデル化している。本稿では,「非言語的変形の無視」の実装は,集めることではなく,音事象間の差異を捉えることで可能となることを数学的に示し,極めて少数の話者の音声で,不特定話者音声認識が可能であることを示す。提案する枠組みでは,音的要素をモデル化するのではなく,音的差異に着眼し,差異を集めることで構成される全体的な音的構造をモデル化する。
著者
峯松 信明 西村多寿子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.127, pp.211-216, 2005-12-22

音声コミュニケーションには,話者・環境・聴取者に起因する音響歪みが不可避的に混入する。これら静的な非言語的歪みを数学的にモデル化し,そのモデルの上で,音響歪みを表現する次元を完全に失った音声の物理表象を提案している[1]。個々の音声事象の絶対的な物理特性は一切捨象し,音声事象間の関係のみを,全ての二事象間差異(コントラスト)の集合,即ち,ある幾何学構造として抽出する。この新しい物理表象は,構造音韻論の物理的実装として解釈されている。事象間のコントラストのみを捉える処理は,音楽の相対音感に類似した処理と考えられるが,本稿ではその提案表象を,言語学,心理学,言語障害学,神経生理学,脳科学,及び音楽学の観点から再度考察,解釈する。その中で,音素を音響空間内で定位する従来の方法論の是非について検討する。In speech communication, acoustic distortions are inevitably involved by speakers, channels, and listeners. In our previous study, these distortions were mathematically modeled, and on that model, a novel speech representation was proposed where the distortions cannot be observed [1]. Absolute properties of speech events are completely discarded and only their interrelations are extracted as a full set of phonic differences or contrasts. The set is mathematically equal to a certain geometrical structure. This new representation is considered as physical implementation of structural phonology. Extraction of contrasts between two events is viewed as a process similar to hearing music, i.e., relative pitch. In this paper, the new representation is reconsidered from viewpoints of linguistics, psychology, language disabilities, neurophysiology, brain science, and musicology, Here, the conventional paradigm where a phoneme is localized absolutely at a certain point in an acoustic space is also reconsidered.
著者
峯松 信明 櫻庭 京子 西村 多寿子 喬 宇 朝川 智 鈴木 雅之 齋藤 大輔
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.1, pp.12-26, 2011-01-01

近年の計算機性能の飛躍的な向上により,大規模語彙を対象とした音声認識は実用段階を迎えている.音声合成においても話者性や発話スタイルを制御できる合成方式など,種々の応用場面を念頭においた技術開発が行われている.その一方で,音声工学研究の目的を「人間に匹敵するような」音声言語情報処理能力の計算機実装と考えた場合,人間と機械との間には,今なお,大きな溝があることも指摘されている.本研究ではまず,現在の音声認識・音声合成相当の情報処理を行う人間が現に存在した場合,その人間の挙動は,音声言語の獲得に困難を示す重度自閉症者の挙動と類似するであろうことを指摘する.その上で,(定型発達を遂げた)人間らしい音声情報処理の実現に向けて,現在の音声技術に欠けている基礎技術は何であるのかを幅広い視点から考え,欠損技術の一つとして「音声に含まれる言語的情報を,非言語的情報から音響的に分離して抽出する技術」を主張する.と同時に,その実現に向けて一つの技術的提案を行い,いくつかの実験結果を述べる.