著者
吉村 健
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-93, no.4, pp.1-6, 2012-10-19

しゃべってコンシェルでは自然な発話により,携帯端末の基本機能 (電話,メール,スケジューラ,等) を利用したり,さまざまな情報 (地域情報,リアルタイム情報,デジタルコンテンツ,等) を検索したりすることが簡単にできる.そのようなサービスを実現するにあたり,ユーザの発話の内容を解析し,ユーザの求める最適なアプリケーションや各種専門検索エンジンに処理を橋渡しする意図解釈技術と,発話内容が質問である場合には,質問に対する回答そのものを提示する知識検索技術が適用されている.本稿では,しゃべってコンシェルのサービス概要と,そこで活用されている言語処理技術について述べる.
著者
森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-110, no.5, pp.1-6, 2016-01-29

本稿では,筆者らが 2010 年に提案した基本波検出に基づく基本周波数 (F0) 推定法の耐雑音性向上手法について述べる.2010 年に提案した F0 推定法は,周期信号の調波構造における基本波を低域通過フィルタにより抽出し,基本波の周波数を求める.F0 が未知であるため,カットオフ周波数の異なる複数の低域通過フィルタを用意し,各フィルタにより処理された信号から F0 候補と信頼度を求め,全ての候補中最も信頼できる候補を選択していた.基本波検出に基づく方法は,低域に雑音が混入する環境では充分な SNR の確保が困難であるため,高 SNR 環境で収録された音声を対象としていた.提案法では,滑らかな F0 軌跡を描くよう候補を再選択するアルゴリズム,および推定結果に対し瞬時周波数により結果を補正する処理を導入することで雑音に対する頑健性を向上させる.本稿では,耐雑音性向上手法について述べ,耐雑音性に限定した評価から提案法が期待通り動作することを示す.
著者
森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.23, pp.1-6, 2016-12-13

基本周波数 (F0,最近は FO と表記することもあるが本稿では F0 に統一する) は,周期的に生じる声帯振動間隔の最も短いものの逆数として定義され,知覚する音声の高さに概ね対応する音声の主要なパラメータである.F0 は様々な音声処理に利用されるパラメータであり,例えば Channel vocoder の考えに基づいた高品質音声合成では,音声から F0 を可能な限り高い精度で推定することが要求される.筆者らは,これまで高 SNR の音声を対象とした実時間処理が可能な推定法について検討し,SNR が 30 dB 以上であれば実時間処理が可能であり,かつ最新の方法と比較しても遜色ない性能が達成可能な方法を提案してきた.一方,例えば統計的音声合成では,学習に必要な音声パラメータは事前に分析しておけば良いため,実時間性よりも高い精度と雑音に対する頑健性を備えた方法が望ましいといえる.本稿では,計算速度ではなく,高い耐雑音性と推定精度にフォーカスを絞った F0 推定法 Harvest を提案する.Harvest は,音声スペクトルが調波構造を持つことに着目し,基本波に相当するピークを検出する方法を採用している. まず,高調波と低域雑音を除去するため,様々な中心周波数のバンドパスフィルタによるフィルタリングを実施し,得られた多チャネル信号から F0 の可能性がある候補を全て選定する.その後,選定された候補を瞬時周波数を用いて補正し,時系列の連続性を考えて接続することで最終的な F0 軌跡を生成する.本稿では,音声データベースを用いた評価,および筆者らが 2016 年に提案した耐雑音性評価法により提案法の有効性を示す.
著者
福森隆寛 堀井圭祐 中山雅人 西浦敬信 山下洋一
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013-SLP-96, no.6, pp.1-8, 2013-05-16

実環境下での音収録において,周囲の雑音が目的信号に混入し音質が大きく劣化するという問題がある.そのため,収録した音を受聴する場合,混入雑音を抑圧し目的音のみを強調することが重要である.単一マイクロホンでの音収録における雑音抑圧手法としては,SS (Spectral Subtraction) が一般的に利用されている.SS は低演算コストで雑音を抑圧できるが,ミュージカルノイズと呼ばれる聴感上不快な雑音が発生する.そこで,SS を用いて雑音抑圧後の信号を受聴する場合,ミュージカルノイズを発生させずに混入雑音を抑圧する必要がある.これまで,ミュージカルノイズ低減のために SS を反復する手法が提案されており,その有効性が確認されている.しかし,これらの手法では全周波数で一様に雑音を抑圧しており,周波数毎に雑音抑圧量を制御することで更なるミュージカルノイズの低減が期待される.そこで,本研究ではミュージカルノイズが発生しない雑音抑圧手法の構築を目指して,聴覚特性に基づく反復 SS を提案する.提案法の有効性を確認するために,客観・主観評価実験を実施した.各評価実験の結果,提案法は従来法と比較して高い雑音抑圧性能を達成しつつ,主観的にミュージカルノイズを低減できた.
著者
大中 緋慧 高道 慎之介 井本 桂右 岡本 悠希 藤井 一貴 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2023-SLP-146, no.33, pp.1-6, 2023-02-21

オノマトペとは,音の構造を模倣する文字表現,つまり音の文字表現である.この観点から,所望のオノマトペから環境音を合成する Onoma-to-wave が提案されている.他方,オノマトペには漫画や広告,バーチャルリアリティにおける音の視覚的表現(画像オノマトペ)がある.画像オノマトペには,画像の伸縮などの文字だけでは表現できない表現が含まれており,この表現を用いることでより多様な音の合成が期待できる.そこで本研究は,画像オノマトペから環境音を合成する Visual onoma-to-wave を提案する.本手法は,画像オノマトペに含まれる視覚表現のみならず,環境音源の視覚表現(音源画像)を補助情報として,環境音を合成する.また本論文では,オノマトペの反復表現に着目したデータ拡張手法を提案し,より多様な環境音合成を可能にする.実験評価の結果から,画像オノマトペと音源画像から多様な環境音を合成できることが示す.
著者
宮下 敦志 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2023-SLP-146, no.34, pp.1-6, 2023-02-21

音声は順序を持ったデータ系列である.音声スペクトルの周波数軸伸縮や音声の話速制御,テキスト等の別の系列との対応付けなど,いくつかの音声処理は順序を保存するワーピング変換で表される.本報告では,全域通過フィルタを用いたワーピングをリー群として解析することで一般化し,一般ワーピング群 GW を導く.GW の時間領域,周波数領域,接ベクトル空間におけるパラメトリック表現を与え,普遍性や実装方法の観点から体系的に論ずる.
著者
渡邉 研斗 松林 優一郎 深山 覚 中野 倫靖 後藤 真孝 乾 健太郎
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-116, no.16, pp.1-12, 2017-05-08

本研究では楽曲のメロディを考慮した歌詞の自動生成手法を提案する.人間の作詞現場においては,予め作曲されたメロディに対して歌いやすい歌詞を創作する 「曲先」 と呼ばれる方法が広く行われている.しかしながら,自動歌詞生成の既存手法の多くは,韻やシラブルに基づく生成手法を提案しているものの,メロディと歌詞の関係を考慮しておらず,メロディの区切りと単語の区切りが一致しないような不自然な歌詞を生成してしまう問題がある.本研究では,メロディの音符と歌詞の読みが対応づいたデータを用いて,メロディの音の長さ ・ 休符の位置 ・ 繰り返し構造などの特徴と歌詞の相関を詳しく分析し,その結果をもとにした自動歌詞生成モデルを構築する.結果として作成されたモデルにより,休符や長い音符付近で行や段落 (連) が区切れている自然な歌詞が自動生成された.
著者
海口 瑞姫 今井 風花 坂井 祐三子 森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.25, pp.1-3, 2019-06-15

一般に,音声の高さ (基本周波数) は,身長とは負の相関があると言われており,これは,声帯の長さが身長と関連するという仮説に基づいている.本研究では,この仮説をより詳細に検証するため,様々な体型情報と基本周波数との相関関係を調査し,基本周波数と相関の強い体型情報を明らかにすることを目指す.本稿では,年齢条件をほぼ統一した女子生徒の発話を対象に,音声の高さに相当する基本周波数を推定し,複数の体型情報との関連性を調査した結果を示す.音声収録は,半年程度の期間を開けて 2 度実施し,基本周波数と 5 種の体型情報 (身長 ・体重 ・首回り ・胴回り ・体格指数 (BMI: Body Mass Index)) との相関を分析した.分析の結果,基本周波数と身長との間に負の相関があることは確認できたが,それ以上に体重との相関が強いという傾向が認められた.
著者
宮下 敦志 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-142, no.33, pp.1-6, 2022-06-10

音声認識モデルには,話者の違いによる発声の揺らぎに対して認識結果が不変であることが求められる.声道長変換はそのような揺らぎを模倣する変換の 1 つである.本報告では,全域通過フィルタによるワーピングで表される声道長変換について,群論を用いて別の変換式を与え,そこから解析的に導かれる声道長正規化処理を音声認識モデルの入力に用いる手法を提案する.提案手法では,学習データに依存しない特徴量表現を得ることが可能である.TIMIT データセットを用いた音素ラベル分類による実験的評価によって,学習データに含まれない仮想的な声道長の話者について,提案手法による汎化性能の向上が確認された.
著者
鶴巻 有香 安川 美智子 横尾 英俊
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011-SLP-86, no.14, pp.1-6, 2011-05-09

滑舌訓練用の類似音の検索を行うことを目的として,日本語の子音の特徴に注目した早口言葉の検索方法を提案する.まず最初に,被験者実験を行い,言い間違いの具体例を調査分析した結果を報告する.次に,言い間違いは特に子音で生じやすいことから子音の特徴に注目した類似文字列の検索を提案する.漢字かな混じりの文字列を読み仮名に変換し,さらに母音の特徴を抽象化する記号体系に文字列を変換することにより,表記ではなく単語の読みの類似性で検索が行えることが期待できる.滑舌訓練用の例文を用いた評価実験により,提案法は従来法と比較して,類似音を持つ早口言葉の検索性能が高いことを確認した.
著者
山本 風人 井之上 直也 渡邊 陽太郎 岡崎 直観 乾 健太郎
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-91, no.9, pp.1-8, 2012-05-03

本稿では、重み付き仮説推論のパラメタを教師あり学習によって自動調整する手法を提案する。仮説推論は、与えられた観測に対して評価関数を最大化する最良の説明を求める推論であり、自然言語処理において文章に明示されていない情報の顕在化を行うことに対して有用な枠組みとして注目を浴びている。しかしその一方で、仮説推論の評価関数の学習手法が未だ提案されておらず、評価関数のパラメタの調整は、人手による調整やヒューリスティックな手法に頼らざるを得ないという問題があった。そこで我々は、仮説推論の拡張のひとつである重み付き仮説推論を対象として、仮説の証明木におけるリテラル間のコストの関係をフィードフォワードニューラルネットワークの形で表現することで、誤差に対する各パラメタの勾配を求め、評価関数のパラメタの識別学習を実現する。また、提案手法によって評価関数を学習できていることを確かめるために、既存のデータセットを用いて実験した結果についても報告する。
著者
中島 祥好
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2020-SLP-132, no.10, pp.1-2, 2020-05-30

言語音が時間上でどのように分かれ,互いに関係づけられるかを探る分野である「音韻論」は,環境における音がどのようにまとまったり分かれたりして聴こえるかを探る「聴覚心理学」に結びつけられるべきである.我々の研究グループは,「聴覚の文法」と称する理論的枠組みを作り,非言語音が知覚体制化によって音脈を形成することについても音韻論のような考えかたが有効であることを示した.もう一つの理論的枠組みである「音響的音韻論」は音節形成の原理などを音響分析に基づいて探るもので,その第一歩として,音声のスペクトル変化の中に,言語学において鳴音性 sonority と呼ばれる性質がどのように現れるかを解明している.言語音と非言語音との研究を同じ精神物理学の方法論に則って進めることは実り多いと思われる.
著者
戸上 真人
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.8, pp.1-6, 2021-02-24

深層学習ベースの音源分離の進化が著しいが,ニューラルネットワーク (NN) は空間モデルとは独立に学習されることが多い.しかし,そのような構成で学習された NN は,空間モデルを用いて音源分離を行う構成において本当に最適であるといえるのかという疑問が残る.本講演では従来の統計モデルに基づく音源分離および深層学習を用いた音源分離の研究の流れを示すと共に,深層学習を用いた音源分離に空間モデルを取り込み,NN を空間モデルを考慮して学習する方法として近年著者らが進めている 4 つの方向性,1) 空間モデルの影響を考慮した NN の損失関数,2) NN の構造の中に空間モデルを用いた音源分離を埋め込む方法,3) 所望音源の到来方向の情報をアトラクタとして用いて音源分離に必要なパラメータを推定するフレームワーク,4) 統計モデルに基づく音源分離法を疑似教師信号生成機として用いる教師無し NN 学習法を紹介する.
著者
米山 怜於 呉 宜樵 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.13, pp.1-6, 2021-02-24

本稿では,ソースフィルタ理論に基づくニューラルボコーダを単一のネットワークにより実現する手法を提案する.深層学習に基づく音声波形生成モデリングを実現するニューラルボコーダは,高品質な音声波形を生成で きる一方で,完全データ駆動型の枠組みであるがゆえに,従来型ボコーダの利点の一つであった操作機能が低下する 傾向にある.そのため,従来型ボコーダと同様に音源生成部と声道フィルタ部に分割し,どちらか一方に対してパラ メトリックなモデルを導入する枠組みが盛んに研究されている.従来型ボコーダにおける近似を一部導入することで, 操作性を高めることが可能となるが,完全データ駆動型の枠組みと比較すると,音質が若干劣化する傾向にあり,ま た,操作機能についても未だ改善の余地がある.この問題に対し,本稿では,より近似の少ない枠組みとして,単一 のニューラルネットワークに対してソースフィルタ理論の仕組みを導入した「統合型ソースフィルタネットワーク」を提案する.音源生成部と声道フィルタ部の両方をニューラルネットワークでモデル化して接続することで,統一的 な訓練指標でネットワーク全体を最適化することを可能とするとともに,音源生成部のネットワーク出力に対する制 約を導入することで,音源生成機能を備えたネットワークの学習を試みる.実験的評価の結果から,提案法は従来法であるニューラル・ソースフィルタと比較して,F0 変換精度を有意に改善できることを確認した.
著者
津崎 実
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.12, pp.1-6, 2018-06-09

ピッチは音の重要な知覚属性であり,ヒトがどのようにしてピッチを知覚するかに関するモデルについては古くから研究がされている.ピッチ現象を説明するための聴覚理論として有名な場所説と時間説の間の論争は 19 世紀に今日の原形が形成され,その後修正を加えながら,今日でも引き継がれてきている.時間説の流れを汲む近年の機能モデルでは基底膜フィルターバンク処理と半波整流の後段に自己相関演算による周期性検出を想定するものが多い.著者の研究グループでは,加齢に伴う絶対音感判断の上方へのシフトという現象をここ数年研究してきている.この現象は知覚レベルでのピッチが加齢に伴って変容する可能性を強く示唆する.ピッチが音響信号に備わる周期性に基づいた知覚属性であることは否定しがたいが,単にその周期性を時間の関数としての自己相関演算で求める以上,このような加齢効果が入り込む余地はない.加齢効果を説明するためには自励発振する内部参照を想定し,その自励発振周波数が加齢によって変化することを想定する必要がある.発振回路を使用したピッチ検出機構の提唱は先例があるものの,従来はその想定を必要とする現象が観察されずに来た.加齢性のピッチ ・ シフト現象はピッチ知覚に関する研究に新たな局面を切り開く可能性がある.
著者
木村 優志 春日 秀之
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2020-SLP-134, no.34, pp.1-4, 2020-11-25

コンピューターグラフィックスで作られた外見で動画配信を行う Virtual Youtuber (VTuber / バーチャルライバー) や,Virtual Influencer と呼ばれる存在が近年注目されている.CG による固有の外観をもっているが,声に関しては声優などが務めることが多い.ここで,バーチャルタレントの外見だけではなく,話者変換によって声を変えることができればより便利である.StarGAN-VC2++ は高精度な話者変換モデルの一つであるが,基本周波数が振動するという問題がある.そこで,新たに Δ????0 損失項を導入し,基本周波数の振動の抑制を試みる.実験の結果,基本周波数の振動の抑制が確認された.しかし,フィルタが発振する例が見られる問題が残る.
著者
阪上 大地
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.2, pp.1-13, 2018-06-09

本稿では音楽情報処理に深層学習を応用する方法を解説する.本稿は二部構成で,ニューラルネットの一般的な設計と学習方法を解説した後,音楽情報処理を含めた各種メディア処理への応用例を紹介する.前半ではパラメータの初期化方法など常識となってしまっている基本的な事柄,Dropout などのよく使われるテクニック,最先端でまだ整理が進んでいない研究成果を順番に解説する.後半では WaveNet や Encoder-Decoder モデルなど各分野の代表的な応用例を紹介し,和音認識 ・ ビートトラッキングなどに深層学習を応用した研究を紹介する.
著者
小野 雄大 森勢 将雅
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.15, pp.1-6, 2019-06-15

VOCALOID などの歌詞と譜面の情報から歌声を合成する歌声合成ソフトウェアを皮切りに,歌声合成技術は発展し続け,歌声に多様な表現を付与することが可能となった.多様な表現が可能となったからこそ,ユーザが所望する歌声をデザインすることを支援する研究も行われている.本研究では,歌唱表現の中でもビブラートに着目し,そのデザインを支援するインタフェースを検討する.本稿では,歌声を聴きながらビブラートデザインを行う手法を提案し,提案手法をインタフェースとして試作した.本インタフェースを構成する機能として,リアルタイムビブラートデザイン機能やデザイン対象音声のピアノロール表示機能,音声ファイルの読み込み,書き込み機能などについて説明する.最後に,提案手法のビブラートデザインの有効性について考察し,今後の展望について述べる.
著者
大浦 圭一郎 中村 和寛 橋本 佳 南角 吉彦 徳田 恵一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.34, pp.1-6, 2019-06-15

本稿では,ニューラルネットワークに基づく音声ボコーダにおいて,周期信号と非周期信号を入力とする音声生成の枠組みを提案する.近年,ニューラルネットワークを用いて音声波形を直接モデル化する手法として WaveNet [1] が提案された.WaveNet は音声波形を高精度にモデル化することができ,自然な音声を直接生成することができるため,特に音声ボコーダ [2] として様々な研究で利用されている [3],[4],[5].しかし,過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持ち,合成時に並列演算ができないことから,実時間で合成できない問題があった.また,WaveNet を学習する際のデータベースに無い音高の再現ができない問題や,補助特徴量として指定したピッチ情報の音高を再現しないことがある問題があった.これらの問題に対し,本稿では明示的に周期信号と非周期信号の列を入力として用い,対応する音声サンプルの列を一度に生成する手法を提案する.提案手法を用いることで,実時間より高速に音声を生成できること,および,学習データの範囲外のピッチを持つ音声波形を生成できることを確認した.また,自然性に関する主観評価実験を行い,WaveNet と比較して合成音声品質の向上を確認した.