著者
峯松 信明 西村 多寿子 櫻庭 京子 朝川 智 齋藤 大輔
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.37-42, 2007-07-19
被引用文献数
3

発達心理学では幼児の言語獲得を「音声模倣」という言葉で表現するが,通常,声(音)を模倣しようとする幼児はいない。一方,九官鳥の「音声模倣」では彼等は声(音)を模倣する。何故,幼児は声(音)を模倣しようとしないのか?音の音色は共鳴特性に支配されるため,音を模倣する場合,親が持つ声道と同様の形状を有する声道が必要となり,結局,親と同じ体格が要求される。よって,物理的に声模倣は不可能である。では,何故,模倣しようと努力しないのか。そもそも,物理的に異なる二つの音ストリーム(例えば,父・母の「おはよう」)を何故「同一である」と感覚するのだろうか?「聞こえた音を音韻(仮名)表象に変換し,音韻列としての同一性を認知する」との仮説も可能であるが,発達心理学はこれを否定する。何故なら,分節音及び音韻意識は「後天的に学習されるもの」だからである。本研究は,上記問いを数学及び物理の問題として捉え,「音色の相対音感」という新概念を提案することで解く。提案する枠組みは,一つの帰結として「孤立音を音韻として同定する能力は音声言語運用の必要条件ではない」という命題を主張するが,欧米圏に数多く存在する発達性ディスレクシアが該当する症状を呈している。
著者
峯松 信明 西村 多寿子 朝川 智 櫻庭 京子 齋藤 大輔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
巻号頁・発行日
vol.2007, no.75, pp.75-80, 2007-07-20
参考文献数
30
被引用文献数
3

一つの言語には通常数十種類の音素(phoneme)がある。しかし音素の音的実体は前後文脈(音素環境)などによって多様に変形し,異音(allophone)と呼ばれる。音素と比較して種類数も多く,より具体的な音的現象に対応している。しかし奇妙なことに,これら音的事象を記号を用いて記す場合,性別,年齢,収録・伝送機器特性などによる音の変形(非言語的要因による音響的変形)は一切無視される.その音響的変形が幾ら大きくても,である。音声認識の音響モデリングは,凡そ,異音に相当する音事象をtriphoneとしてモデル化しているが,「非言語的変形の無視」を実装するために,数万人の話者から,様々な環境で収録した音サンプル群を統計的にモデル化している。本稿では,「非言語的変形の無視」の実装は,集めることではなく,音事象間の差異を捉えることで可能となることを数学的に示し,極めて少数の話者の音声で,不特定話者音声認識が可能であることを示す。提案する枠組みでは,音的要素をモデル化するのではなく,音的差異に着眼し,差異を集めることで構成される全体的な音的構造をモデル化する。
著者
齋藤 大輔 松浦 良 朝川 智 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.406, pp.189-194, 2007-12-13
被引用文献数
6

本報では,ケプストラムベクトルの方向成分が声道長の変化に対して強く依存していることを理論的,実験的に示す.さらにこの依存性がn次元のケプストラム空間における回転として表出されることを示す.音声認識の研究においては,年齢や性別の違いといった歪みを取り除くため,声道長正規化(VTLN)とよばれる技術が広く用いられている.VTLNはスペクトルドメインにおける周波数ウォーピングによって実現されるが,ケプストラムドメインでは線形変換c=Acとして表現する事ができる.しかしこの変換行列Aの幾何学的な性質に関しては今まで十分に議論されてこなかった.本研究ではn次元空間における幾何学を通して,これらの変換が全てのケプストラムベクトルをおよそ等しく回転させる事を示す.さらに分析再合成音を用いて,実際にケプスラムベクトルが回転している事を実験的に確認した.身長180cmの話者と身長120cmの話者を比較した場合,そのケプストラムベクトルがおよそ直交していることがわかった.本報の結果から従来の音声認識システムが子供の声のような特異音声を苦手とする一因を定量的に示す事ができた.
著者
鎌田 圭 朝川 智 峯松 信明 牧野 武彦 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.73-78, 2007-07-19
被引用文献数
1

音声コミュニケーションは,音声の生成,収録,伝送,再生,聴取の何れの過程においても非言語的特徴が不可避的に混入するが,これを表現する次元をおよそ保有しない音響的普遍構造が提案されている.この構造的表象を用いて,発音矯正の必要度を学習者別に推定可能であることが実験的に示されている.本稿では,この推定方法が教育的に妥当であるかを,英語音声学を専門とする音声学者による学習者発音の母音図表記を通して検討する.また,この推定方法について,改善可能な点を示し,より妥当な推定方法を検討する.
著者
峯松 信明 櫻庭 京子 西村 多寿子 喬 宇 朝川 智 鈴木 雅之 齋藤 大輔
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.1, pp.12-26, 2011-01-01

近年の計算機性能の飛躍的な向上により,大規模語彙を対象とした音声認識は実用段階を迎えている.音声合成においても話者性や発話スタイルを制御できる合成方式など,種々の応用場面を念頭においた技術開発が行われている.その一方で,音声工学研究の目的を「人間に匹敵するような」音声言語情報処理能力の計算機実装と考えた場合,人間と機械との間には,今なお,大きな溝があることも指摘されている.本研究ではまず,現在の音声認識・音声合成相当の情報処理を行う人間が現に存在した場合,その人間の挙動は,音声言語の獲得に困難を示す重度自閉症者の挙動と類似するであろうことを指摘する.その上で,(定型発達を遂げた)人間らしい音声情報処理の実現に向けて,現在の音声技術に欠けている基礎技術は何であるのかを幅広い視点から考え,欠損技術の一つとして「音声に含まれる言語的情報を,非言語的情報から音響的に分離して抽出する技術」を主張する.と同時に,その実現に向けて一つの技術的提案を行い,いくつかの実験結果を述べる.