著者
峯松 信明 西村 多寿子 櫻庭 京子 朝川 智 齋藤 大輔
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.37-42, 2007-07-19
被引用文献数
3

発達心理学では幼児の言語獲得を「音声模倣」という言葉で表現するが,通常,声(音)を模倣しようとする幼児はいない。一方,九官鳥の「音声模倣」では彼等は声(音)を模倣する。何故,幼児は声(音)を模倣しようとしないのか?音の音色は共鳴特性に支配されるため,音を模倣する場合,親が持つ声道と同様の形状を有する声道が必要となり,結局,親と同じ体格が要求される。よって,物理的に声模倣は不可能である。では,何故,模倣しようと努力しないのか。そもそも,物理的に異なる二つの音ストリーム(例えば,父・母の「おはよう」)を何故「同一である」と感覚するのだろうか?「聞こえた音を音韻(仮名)表象に変換し,音韻列としての同一性を認知する」との仮説も可能であるが,発達心理学はこれを否定する。何故なら,分節音及び音韻意識は「後天的に学習されるもの」だからである。本研究は,上記問いを数学及び物理の問題として捉え,「音色の相対音感」という新概念を提案することで解く。提案する枠組みは,一つの帰結として「孤立音を音韻として同定する能力は音声言語運用の必要条件ではない」という命題を主張するが,欧米圏に数多く存在する発達性ディスレクシアが該当する症状を呈している。
著者
大垣慶介 齋藤大輔 峯松信明 広瀬啓吉
雑誌
第73回全国大会講演論文集
巻号頁・発行日
vol.2011, no.1, pp.541-542, 2011-03-02

本稿では、統計的特徴量変換に基づき、標準フォントから手書きフォントを合成する手法を提案する。<br />手書きフォントは、計算機と人間との文字インターフェースであるフォントに特定の筆者の個人性を反映したものであり、<br />ユーザに特化したインターフェースという観点から重要となる。<br />しかし計算機上で手書きフォントを扱う上で、日本語には漢字の種類が多く、すべての手書きサンプルをとることは困難な問題となる。<br />本研究では、この問題に対し、標準フォントと目的筆者の手書きの少数サンプルとの対応関係を統計的にモデル化し、文字生成に適用する。<br />文字の構成要素である筆画の形状、位置、大きさについて、<br />音声変換で用いられる混合ガウス分布に基づく特徴量変換を適用した。
著者
齋藤 大輔 山本 敬介 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.322, pp.7-12, 2011-11-21

本稿では,話者空間をテンソル形式によって表現することにより,柔軟に話者性を制御することが可能となる新しい手法を提案する.声質変換の研究において,任意話者の音声を入力または出力として,変換を実現する手法はアプリケーション応用の観点からも非常に重要な技術であるといえる.任意話者声質変換を目的とする技術として,固有声混合正規分布モデル(EV-GMM)に基づく固有声変換法(EVC)が提案されている.EVCにおいては,話者認識でよく用いられるアプローチと同様に,各話者GMMの正規分布の平均ベクトルを連結して得られるGMMスーパーベクトルをもとに話者空間が構築される.構築された話者空間上において,個々の話者は固有スーパーベクトルに対する少数の重みパラメータによって表現することが可能となる.本稿では,話者空間を構築するための事前学習話者データに対して,テンソル解析を導入することによって話者空間を構築することを検討する.本研究における提案手法では,個々の話者はスーパーベクトルではなく行列によって表現される.この話者を表す行列の行及び列は,それぞれ音響特徴量の平均ベクトルの次元及びガウス分布の要素に対応する.ここで,これらの行列のセットに対してテンソル解析を導入することで話者空間が構築される.提案法は,話者情報のスーパーベクトル表現に内在する問題点に対する解法となっており,任意話者声質変換の性能向上が期待できる.本稿では,一対多声質変換において,提案する話者空間表現を導入することで,その有効性を示す.
著者
峯松 信明 牧野 武彦 山内 豊 齋藤 大輔
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2018-04-01

外国語学習の主目的は,対象言語を用いた他者との音声コミュニケーションであるが,その言語を日常使う機会に恵まれなければ,外国語訛りが強く残り,聴取者にとって聞き取り難い発音となる。学習者発音を矯正する場合,教師は自身が内在的に持つモデル発音との差異に基づいて矯正し,これを技術的に実現する場合も,母語話者発音モデルとの差異を自動検出することになる。これらは母語話者のような(native-souding)発音を学習目標とした指導戦略と言えるが,外国語音声学習の主目的は十分伝わる可解性の高い(comprehensible enough)発音の獲得である。この場合,聴取者が持つと想定される発音逸脱への許容度を前提とした指導が必要となるが,聴取者の許容能力を計測・モデル化することが困難であるため,発音了解性に基づく音声指導は,教師の経験と直感に頼らざるを得なかった。本研究では,1) 学習者音声o(t)に対する母語話者シャドーイングを通して,各音声に対して了解度の時系列パターン i(t) を定量的に導出し,o(t) と i(t) のパラレルコーパスを構築する。2) それを用いて,任意の学習者音声のどこが,どの程度聞き取り難くなるのかを深層学習によって予測する技術を構築する。3) 最終的に,LA を母語とし LB を学ぶ学習者群と,LB を母語とし LA を学ぶ学習者群に対して,互いに他群の学習者音声をシャドーイングさせ(互いに他者の評価者となり),学習者音声のどこで了解性が低下するのかを教示する教育インフラを構築・公開し,外国語音声教育に貢献する。2018年度は学習者音声に対して音素事後確率を推定し i(t) とする方式を提案した。その後,シャドー音声以外に母語話者の読み上げ音声を利用する手法を考案することができた。
著者
峯松 信明 西村 多寿子 朝川 智 櫻庭 京子 齋藤 大輔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
巻号頁・発行日
vol.2007, no.75, pp.75-80, 2007-07-20
参考文献数
30
被引用文献数
3

一つの言語には通常数十種類の音素(phoneme)がある。しかし音素の音的実体は前後文脈(音素環境)などによって多様に変形し,異音(allophone)と呼ばれる。音素と比較して種類数も多く,より具体的な音的現象に対応している。しかし奇妙なことに,これら音的事象を記号を用いて記す場合,性別,年齢,収録・伝送機器特性などによる音の変形(非言語的要因による音響的変形)は一切無視される.その音響的変形が幾ら大きくても,である。音声認識の音響モデリングは,凡そ,異音に相当する音事象をtriphoneとしてモデル化しているが,「非言語的変形の無視」を実装するために,数万人の話者から,様々な環境で収録した音サンプル群を統計的にモデル化している。本稿では,「非言語的変形の無視」の実装は,集めることではなく,音事象間の差異を捉えることで可能となることを数学的に示し,極めて少数の話者の音声で,不特定話者音声認識が可能であることを示す。提案する枠組みでは,音的要素をモデル化するのではなく,音的差異に着眼し,差異を集めることで構成される全体的な音的構造をモデル化する。
著者
ポンキッティパン ティーラポン 齋藤 大輔 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.112, no.81, pp.7-12, 2012-06-07

本稿ではeigenvoiceに基づくキャラクター変換の一手法を提案する。273名の話者から構築したeigenvoice話者空間と,セミプロの声優から収録した三種類のキャラクタ声を用いて,キャラクター変換を実装する。ここでは任意の入力話者に対して,その話者の個人性を保存しつつ,声のキャラクターのみを変換する。母語話者及び非母語話者を対象に,キャラクター変換前後の合成音声を用いた聴取実験を行なった。その結果,意図されたキャラクター差異が十分に知覚されることが示された。更に,セミプロの声優による二キャラクターにおいて基本周波数差異が小さい場合でも,対応する合成音声から,十分にキャラクター差異を知覚できることが示された。これは,キャラクター変換の場合,スペクトルに基づく変換が不可欠であることを意味している。また,セミプロによる三キャラクタ声と提案手法による三キャラクタ声との音響分析により,本提案手法が適切な変換を実装できていることも確認できた。
著者
齋藤 大輔 斎藤 恵一 納富 一宏 東 吉彦 斎藤 正男
出版者
バイオメディカル・ファジィ・システム学会
雑誌
バイオメディカル・ファジィ・システム学会誌 (ISSN:13451537)
巻号頁・発行日
vol.16, no.1, pp.91-96, 2014-04-25

ウェブのアクセシビリティは,インターネットのユーザにとって必要であり,特に視覚要素は非常に重要な要因である.我々は,健常若年者およびシミュレーションフィルタを用いた模擬高齢者および模擬色覚障碍者について,無彩色における視認性評価を行った.さらに,RGB値を用いた明度差および色差を用いて重回帰分析による視認性予測を行ってきた.そこで本論文では,これまでに得た白色背景と黒色背景の視認性予測結果を総合的に評価した.その結果,明度差および色差により視認性判定は明確に分類でき,明度差(L)がL<152.7のとき色差(E)がE≦65.8L-9593,明度差が152.7≦L<153.0とき色差がE≦16.0L-1989,明度差がL≧153.0のとき色差がE≦8.77L-883.1を満たす背景色と文字色の明度差および色差で無彩色背景においては背景色に関係なく視認性が高いと判定できることが示された.
著者
齋藤 大輔 松浦 良 朝川 智 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.406, pp.189-194, 2007-12-13
被引用文献数
6

本報では,ケプストラムベクトルの方向成分が声道長の変化に対して強く依存していることを理論的,実験的に示す.さらにこの依存性がn次元のケプストラム空間における回転として表出されることを示す.音声認識の研究においては,年齢や性別の違いといった歪みを取り除くため,声道長正規化(VTLN)とよばれる技術が広く用いられている.VTLNはスペクトルドメインにおける周波数ウォーピングによって実現されるが,ケプストラムドメインでは線形変換c=Acとして表現する事ができる.しかしこの変換行列Aの幾何学的な性質に関しては今まで十分に議論されてこなかった.本研究ではn次元空間における幾何学を通して,これらの変換が全てのケプストラムベクトルをおよそ等しく回転させる事を示す.さらに分析再合成音を用いて,実際にケプスラムベクトルが回転している事を実験的に確認した.身長180cmの話者と身長120cmの話者を比較した場合,そのケプストラムベクトルがおよそ直交していることがわかった.本報の結果から従来の音声認識システムが子供の声のような特異音声を苦手とする一因を定量的に示す事ができた.
著者
川瀬 佑司 峯松 信明 齋藤 大輔 広瀬 啓吉 沈 涵平
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-103, no.27, pp.1-6, 2014-05-17

国際共通語である英語は、それぞれの国や地域の母語干渉により、多様な発音、所謂訛りが存在することが知られている。筆者らの先行研究では、様々な英語発音に対して話者を単位とした自動分類を検討している。ボトムアップ的な分類を行う場合、一般的には対象とする要素群に対して要素間距離行列が必要となる。先行研究では任意二話者間の発音距離の自動推定を行っている。この距離行列を可視化する場合には、多次元尺度法 (Multi-Dimensional Scaling, MDS) や樹形図を用いることが多い。本研究ではこれらに代わる、発音距離行列に対する新しい可視化手法を提案する。従来の可視化は、距離行列全体を表現することが狙いである。しかし可視化結果を呈示される特定の学習者にとってみれば、知りたい主情報は自分とそれ以外の話者の関係性である。そこで本研究では、特定話者とそれ以外の話者の発音距離に着目し、さらには年齢や性別といった情報も含め、英語発音の自己視点からの可視化を提案する。提案手法では従来手法と異なり、可視化結果に歪みが全く生じないことが保証されている。
著者
齋藤 大輔
出版者
バイオメディカル・ファジィ・システム学会
雑誌
バイオメディカル・ファジィ・システム学会大会講演論文集 32 (ISSN:13451510)
巻号頁・発行日
pp.B4-3, 2019-11-23 (Released:2021-02-01)

Smartphone was equipped with the function equal to a PC and has become an indispensable tool in the information society. In particular, many people are using it as entertainment tools such as video viewing, communication applications, and game applications while moving. There are many people using smartphone while walking on a platform or a street because they are enthusiastic about the application and cannot be interrupted. For this reason, many accidents have occurred due to the use smartphone while walking, and have been alerted not to use smartphone while walking. However, smartphone use while walking does not decrease at all. In this report, we examined the risk of using a smartphone while walking, based on changes in perception. In the experiment, we measured the effective visual field when standing without using a smartphone, standing with a smartphone, walking without using a smartphone, and walking with a smartphone. As the result, it was shown that the effective visual field was 45-56% narrower when using a smartphone than when not using a smartphone in both standing and walking. Thus, when using a smartphone, it is meant that it isn't possible to notice the changes in surrounding circumstances. Therefore, it was shown that using a smartphone while walking was dangerous.
著者
小坂 浩隆 田邊 宏樹 守田 知代 岡本 悠子 齋藤 大輔 石飛 信 棟居 俊夫 和田 有司 定藤 規弘
出版者
日本生物学的精神医学会
雑誌
日本生物学的精神医学会誌 (ISSN:21866619)
巻号頁・発行日
vol.23, no.4, pp.255-261, 2012 (Released:2017-02-16)
参考文献数
21

自閉症スペクトラム障害(ASD)の中核症状である社会性障害の脳基盤を解明するために,青年期の高機能ASD群に対して,共同研究機関とともに行ってきたfMRI研究を一部紹介する。自己顔認知課題においては,ASD群は自己顔認知処理がなされる後部帯状回の機能低下と情動処理に関わる右島の賦活異常を認め,認知と情動的評価に解離がみられた。相互模倣課題においては,自己動作実行と他者動作観察の同一性効果を求め,ASD群は左側の extrastriate body area の賦活が不十分で,症状重症度と逆相関を認めた。アイコンタクト・共同注視課題における2 台 MR同時測定(Dual-fMRI)においては,ASD群は視覚野の賦活低下を認めたほか,定型発達者ペアで認められた意図の共有を示す右下前頭葉活動の同調性が認められなかった。これらの脳領域が,ASD の social brain markerになる可能性があると考えられた。
著者
齋藤 大輔 斎藤 恵一 納富 一宏 斎藤 正男
出版者
バイオメディカル・ファジィ・システム学会
雑誌
バイオメディカル・ファジィ・システム学会誌 (ISSN:13451537)
巻号頁・発行日
vol.7, no.1, pp.59-65, 2005-10-20 (Released:2017-09-04)
参考文献数
13
被引用文献数
2

インターネットの急速な普及により,Webアクセシビリティの実現が重要課題となった.特に,Webサイトでの情報提供は,文字情報が中心であることから,前景色と背景色の視認性が重要である.これまで,白色背景においてWebセーフカラーの視認性を検討したところ,Blue系色が年代に関係なく視認性が高いことがわかった.このBlueは未訪問の標準リンク色に使用されており,Webユーザビリティの観点からはリンクの色と下線の組合せは変えないように推奨している.そこで本論文では,この標準リンク色がどのような背景色で有効であるかを124色の背景色について一対比較法を用いて検討した.その結果,標準リンク色と背景色のコントラストが1.37以上になると視認性が高くなることがわかった.
著者
島谷 健一郎 齋藤 大輔 川口 英之 舘野 隆之輔 井鷺 裕司
出版者
一般社団法人 日本生態学会
雑誌
日本生態学会誌 (ISSN:00215007)
巻号頁・発行日
vol.54, no.3, pp.165-178, 2004-12-25 (Released:2017-05-26)
参考文献数
32
被引用文献数
1

Genes move between plants through reproduction, in a process known as gene flow. There are various statistical methods for quantifying current spatial genetic structures of populations, and the recent development of highly polymorphic markers has made it possible to identify gene flow between individuals with high accuracy. Nonetheless, none of the previous methods provides satisfactory visual imaging of the continuously changing spatial genetic structure resulting from gene flow and reproduction. In this study, we developed visualization techniques for illustrating spatial genetic structures on commonly used spreadsheet files, for one specific case study. When combined with basic gene flow models over two generations, we can quantitatively assess the effects of ecological factors in reproduction on spatial genetic structures of offspring, together with visual illustrations. Consequently, for the specific population, we can easily recognize how spatial genetic structure is affected by the density of parents and distance distributions of pollen and seed dispersal, and that if the ratio of maternal adults succeeding in reproduction is small, then extensive pollen flow will be necessary in order to preserve the current genetic diversity.
著者
齋藤 大輔 斎藤 恵一 納富 一宏 東 吉彦 犬井 正男 斎藤 正男
出版者
バイオメディカル・ファジィ・システム学会
雑誌
バイオメディカル・ファジィ・システム学会誌 (ISSN:13451537)
巻号頁・発行日
vol.14, no.1, pp.53-58, 2012-05-30 (Released:2017-09-02)
参考文献数
13

我々はWebアクセシビリティを考慮するために,視認性予測を行ってきた.これまでは,若年者,高齢者および色覚障碍者それぞれの群についての検討であった.しかし,Webアクセシビリティを考慮するためには,視認性予測式を一つにする必要がある.そこで今回は,一つの予測式で視認性を予測するために,色覚モデルの変換を用いて色覚障碍者の視認性予測を試みた.その結果,P型色覚障碍者およびD型色覚障碍者の視認性予測結果と実測値との間に大きな差は確認されなかった.しかし,D型色覚障碍者の視認性予測結果は赤成分を多く含む色で視認性が低く判定される傾向がみられた.以上のことから,本手法を用いて視認性予測を行える可能性が示された.
著者
小坂 浩隆 田邊 宏樹 守田 知代 岡本 悠子 齋藤 大輔 石飛 信 棟居 俊夫 和田 有司 定藤 規弘
出版者
日本生物学的精神医学会
雑誌
日本生物学的精神医学会誌 (ISSN:21866619)
巻号頁・発行日
vol.23, no.4, pp.255-261, 2012

自閉症スペクトラム障害(ASD)の中核症状である社会性障害の脳基盤を解明するために,青年期の高機能ASD群に対して,共同研究機関とともに行ってきたfMRI研究を一部紹介する。自己顔認知課題においては,ASD群は自己顔認知処理がなされる後部帯状回の機能低下と情動処理に関わる右島の賦活異常を認め,認知と情動的評価に解離がみられた。相互模倣課題においては,自己動作実行と他者動作観察の同一性効果を求め,ASD群は左側の extrastriate body area の賦活が不十分で,症状重症度と逆相関を認めた。アイコンタクト・共同注視課題における2 台 MR同時測定(Dual-fMRI)においては,ASD群は視覚野の賦活低下を認めたほか,定型発達者ペアで認められた意図の共有を示す右下前頭葉活動の同調性が認められなかった。これらの脳領域が,ASD の social brain markerになる可能性があると考えられた。
著者
須田 仁志 深山 覚 中野 倫靖 齋藤 大輔 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2018-MUS-121, no.17, pp.1-6, 2018-11-14

本稿では,複数人が歌唱している楽曲に対して誰がいつ歌っているかを推定する歌唱者ダイアライゼーションの基礎的な検討を行う.とくに本稿ではグループアイドルソングのような複数の歌唱者が交互に歌ったり同時に歌ったりする楽曲を対象とする.本稿では伴奏音を除去した歌声を用いてアイドルソングのデータセットを構築した.またこれらの歌声に対して,歌唱者の音響モデルを未知とした手法と既知とした手法の 2 手法を用いて歌唱者ダイアライゼーションを行った.歌唱者の音響モデルを未知とした手法には,会話音声に対する話者ダイアライゼーションで広く用いられている修正ベイズ情報量規準を用いた手法を利用した.また音響モデルを既知とした手法では,i - vector を用いた話者認識を利用して短時間での歌唱者認識を繰り返し行うことで推定した.推定結果から,歌唱者の音響モデルの有無により大きな性能の差があること,また音響モデルが既知であっても短時間での歌唱者認識だけでなく適切な後処理によって推定誤りを減らせることが確認できた.
著者
石原達馬 吉里幸太 亀岡弘和 齋藤大輔 嵯峨山茂樹
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-99, no.20, pp.1-5, 2013-05-04

音声の基本周波数(F0)軌跡は,話者性,感情,意図など豊富な非言語情報・パラ言語情報が含まれることが知られており,その分析は重要な課題である.我々は基本周波数軌跡の数理的なモデルの一つである,藤崎モデルのパラメータの生成過程をHMMによりモデル化することで,実測F0軌跡から藤崎モデルのパラメータを推定する手法を開発してきた.本研究では,パラメータ推定精度の向上を目指して,藤崎モデルの指令列には典型的なパターン(テンプレート)が存在するという仮説に基づき,分析のための新しいHMMのトポロジーを提案する.定量評価実験により,モデルの持つテンプレート数に対する推定精度の変化を実験により確認した.
著者
齋藤 大輔 斎藤 恵一 納富 一宏 東 吉彦 斎藤 正男
出版者
バイオメディカル・ファジィ・システム学会
雑誌
バイオメディカル・ファジィ・システム学会誌 (ISSN:13451537)
巻号頁・発行日
vol.16, no.1, pp.91-96, 2014-04-25 (Released:2017-09-02)

ウェブのアクセシビリティは,インターネットのユーザにとって必要であり,特に視覚要素は非常に重要な要因である.我々は,健常若年者およびシミュレーションフィルタを用いた模擬高齢者および模擬色覚障碍者について,無彩色における視認性評価を行った.さらに,RGB値を用いた明度差および色差を用いて重回帰分析による視認性予測を行ってきた.そこで本論文では,これまでに得た白色背景と黒色背景の視認性予測結果を総合的に評価した.その結果,明度差および色差により視認性判定は明確に分類でき,明度差(L)がL<152.7のとき色差(E)がE≦65.8L-9593,明度差が152.7≦L<153.0とき色差がE≦16.0L-1989,明度差がL≧153.0のとき色差がE≦8.77L-883.1を満たす背景色と文字色の明度差および色差で無彩色背景においては背景色に関係なく視認性が高いと判定できることが示された.
著者
チョウ イ 峯松 信明 齋藤 大輔
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.19, pp.1-6, 2015-11-25

論文では,データが限られた話者に対する音声合成の質の向上を目的とした,多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成モデルを提案する.提案モデルは,話者非依存のネットワーク (SIN) と話者依存のネットワーク (SDN) で構成されており,SIN は複数話者のデータで学習され,SDN はターゲット話者のデータで学習される.さらに,性別コードと話者コード,i-vector を導入することで,SIN 内部において,話者の識別性をより高めることが期待される.データ数が限られたデータベースを用いた音声合成実験により,提案法は,多層ニューラルネットワークと多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成と比較して,合成音声の品質の向上を確認することができた.さらに,提案した複数話者モデルに話者適応を導入可能であり,実験的に新話者に対する音声合成の自然性と話者性を向上することができた.