著者
宮下 敦志 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2023-SLP-146, no.34, pp.1-6, 2023-02-21

音声は順序を持ったデータ系列である.音声スペクトルの周波数軸伸縮や音声の話速制御,テキスト等の別の系列との対応付けなど,いくつかの音声処理は順序を保存するワーピング変換で表される.本報告では,全域通過フィルタを用いたワーピングをリー群として解析することで一般化し,一般ワーピング群 GW を導く.GW の時間領域,周波数領域,接ベクトル空間におけるパラメトリック表現を与え,普遍性や実装方法の観点から体系的に論ずる.
著者
宮下 敦志 戸田 智基
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-142, no.33, pp.1-6, 2022-06-10

音声認識モデルには,話者の違いによる発声の揺らぎに対して認識結果が不変であることが求められる.声道長変換はそのような揺らぎを模倣する変換の 1 つである.本報告では,全域通過フィルタによるワーピングで表される声道長変換について,群論を用いて別の変換式を与え,そこから解析的に導かれる声道長正規化処理を音声認識モデルの入力に用いる手法を提案する.提案手法では,学習データに依存しない特徴量表現を得ることが可能である.TIMIT データセットを用いた音素ラベル分類による実験的評価によって,学習データに含まれない仮想的な声道長の話者について,提案手法による汎化性能の向上が確認された.