著者
高根 昭一 安倍 幸治 渡邉 貫治 西口 正之
出版者
特定非営利活動法人 日本バーチャルリアリティ学会
雑誌
日本バーチャルリアリティ学会論文誌 (ISSN:1344011X)
巻号頁・発行日
vol.26, no.4, pp.266-276, 2021-12-24 (Released:2021-12-24)
参考文献数
37

Head-Related Transfer Function (HRTF) is an acoustic transfer function corresponding to sound transmission from a sound source to one’s ear in a free field. Its property depends on sound source position and difference in shapes of individual ear, head and torso and so on. Acquiring the HRTFs of a certain subject for multiple source positions based on measurement demands that the subject stationarily exists in the measurement system for a long time. It brings about serious physical burden to the subject, and causes some variance in the measured HRTFs. In order to resolve this difficulty, a 3D shape of the subject’s head and ears was scanned by using a 3D scanner and a digital camera, and the 3D data of the subject’s head was constructed. This is called “head model” in this paper. Then the head model was printed out by using a 3D printer, and the HRTFs of the subject were measured locating the head model instead of letting the subject be in the measurement system. As a fundamental investigation, a HATS (Head-and-Torso Simulator) was selected as a subject, and its HRTFs and those of its head model were measured in horizontal plane. As a result, the HRTFs measured for the head model of the HATS are an appropriate approximation with those of the HATS itself in the frequency range under 10 kHz, showing the possibility that the head model of the subject can be a substitute for the measurement of the subject’s HRTFs.
著者
澁谷 崇 東山 恵祐 安部 素嗣 西口 正之
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2011, no.17, pp.1-8, 2011-07-20

本稿では,テレビや映画などで用いられる背景音楽を音楽データベースと高速に一致検索する手法を提案する.我々は背景音楽よりも大きい前景音に対してロバストかつ高速に一致検索を行うために,音楽の持続性トーン成分に着目し,それを用いた特徴量 "トーン構造記述子" を提案する.トーン構造記述子を用いた実験では,S/N 比-20dB においても再現率が 96% 以上で,かつパーソナルコンピュータを用いてもリアルタイムに 10 万曲以上検索可能であることを示す.This paper presents an extremely fast method for identifying background music with a piece of music in large database. We focus on continuous tonal components, which make the identification robust to loud foreground sounds, and propose a feature based on continuous tones, "Tonal Structure Descriptor". In the experiments, we demonstrate that our descriptor enables a personal computer to compare background music with more than 100, 000 tracks in real time, and realize more than 96% Recall at -20dB S/N Ratio.
著者
安部 素嗣 西口 正之
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.101, no.569, pp.25-30, 2002-01-11
被引用文献数
5

本稿では, オーディオ検索のための自己最適化スペクトル相関法を提案する.これは未知の入力信号から既知の参照信号と一致する部分を同定する, いわゆる一致検索のための方法であるが, 入力信号に他の妨害音が強く混入していても, 背景で共通する信号間の類似性を評価し, 類似部分を同定する.例えば音声の背景にある音楽の同定などに用いられる.本手法は, まず参照信号を時間周波数領域で多数の小領域に分解し, 各小領域の成分と入力信号との間の類似度を計算する.続いて各小領域の類似度を投票法により統合し, 参照信号と入力信号が類似しているか否かを判定し, 類似している場合にはその位置を同定する.背景音楽の同定実験では, 音声に対するS/N比が-10dBの音楽で100%, -20dBの音楽でも90%が同定できることが確認された.
著者
西口 正之 井上 晃 前田 祐児 松本 淳 田中 直也
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.424, pp.27-34, 1998-11-20
被引用文献数
5

本稿では、MPEG-4標準化に提案中の低ビットレート音声符号化方式Harmonic Vector eXcitation Coding(HVXC)について、その構成を説明する。HVXCは2.0kbpsおよび4.0kbpsの固定ビットレートモードと、2.0kbps以下の可変ビットレートモードを有している。符号化アルゴリズムとして、有声音部分においてはLPC残差のハーモニックコーディングを、無声音部分においてはCELP方式を用いることで低ビットレートでも良好な音声品質を得ている。主な特徴として、4.0kbpsのビットストリームのサブセットを用いて2.0kbpsで復号するビットレートスケラビリティー機能、音韻やピッチを変えずに再生スピードをコントロールする機能などがある。98年8月のMPEGの公式主観評価試験の結果、2.0kbps HVXCの音質は4.8kbpsのFS1016 CELPの音質よりも優れていることが確認された。HVXC音声符号化方式は1998年10月にMPEG-4 Final Draft International Standard(FDIS)に選定された。