著者
河合 剛 石田 朗 広瀬 啓吉
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.57, no.9, pp.569-580, 2001-09-01
被引用文献数
18

教師が学習者に正しい発音の概要を指導した後, コンピュータが発音の反復練習を促し, 発音の良否を音ごとにスペクトル面から判断し, 発音誤りを特定し, 直し方を分かり易く指導する手法を提案する。2言語の音響モデルを用いた音声認識により話者性を取り除く。母語話者向けの音声認識システム用として学習された音響モデルを使えるので教育システムを容易に開発できる。音の挿入誤りの検出, 音の置換・挿入・脱落誤りの検出, 発音練習の難易度調整の三つの実装例, 並びに日本語話者による英語学習と英語話者による日本語学習の実験を通じて, 発音学習の自動化の有効性や要素技術の言語独立性と可搬性を明らかにする。
著者
古賀 秀昭 牧野 正三 城戸 健一
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.46, no.10, pp.795-801, 1990-10-01
被引用文献数
8

聴覚に関する生理学的及び心理学的知見から、ローカルピークが母音認識の手掛かりとして重要であると考えて、著者らは単語中の母音の認識をローカルピークを用いて行っている。しかし、これまで認識実験と聴取実験との比較検討は行われていない。今回、単語中の母音について聴取実験を行うと共に、同じ音声資料を用いてローカルピークと通常行われているLPCケプストラム係数による認識実験も行い、それらを比較検討した。認識実験は聴取実験で10人中の8人以上が正答したもので標準パタンを作成したもので行った。特徴量と識別規則を含めた検討の結果、部分的には差が見られないものもあるが、全体的にはローカルピークによる認識結果の方が聴取実験結果に近いという結果になった。
著者
尾本 章 藤原 恭司
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.47, no.11, pp.801-808, 1991-11-01
被引用文献数
18

障壁による回折音に対して、能動制御を適用することを試みた。まず第1段階として音場は2次元とし、音源は円筒波を放射しているものとした。従来の回折理論を用いて制御された場をモデル化し、能動制御の効果としての音圧減衰量を、2次音源の配置位置を変数に持つ関数として定義した。また、より広く、大きな減衰量という意味で、2次音源配置が最適化できることを示し、近似的な2次元自由音場における実験からその妥当性を確認した。実験においては、純音で最大30dB、ノイズで10dB程度の音圧減衰が得られ、能動制御が回折音に対して有効であること、また、遮音量改善に関して塀の高さを高くする方法に比べて非常に効果的であることが分かった。
著者
岩宮 眞一郎
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.51, no.2, pp.123-129, 1995-02-01
被引用文献数
16

本研究は、画面サイズの違いが、映像や音楽再生音の印象に及ぼす影響を検討したものである。予想されるように、再生画面の大きい方が、より迫力が感じられる映像となる。ただし、映像及び音楽の印象が物足りない場合、大画面映像が物足りなさを際だたせることがある。また、同じ音量で音楽を再生した場合、画面が大きい方が、再生音の印象は物足らない傾向が強い。迫力ある大画面による映像には、それに見合った迫力のある音が必要とされるのである。画面サイズの違いは、音及び映像の総合的な評価にも影響を及ぼし、画面が大きい方が評価が高くなっている。「大画面」は、映像自体の評価のみならず、音楽再生音の評価も高める効果を持つのである。
著者
安倍 幸次 小澤 賢司 鈴木 陽一 曽根 敏夫
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.56, no.12, pp.793-804, 2000-12-01
被引用文献数
10

視覚情報が環境音知覚に及ぼす影響について調べることを目的とし, 刺激音を指示する際に, 対応する映像も同時に指示して評価実験を行った。その結果から各刺激の因子得点を求め, 以前に行った音のみを指示した実験から得た因子得点と比較することにより, 視覚情報が環境音の評価に及ぼす影響を検討した。その結果, 音の明るさ因子を除く各因子について, 映像の付加による影響が見られた。各因子ごとにその影響について検討したところ, 映像を手掛かりとして音場・音源を認識することにより, その音に対して元々抱いていたイメージが与られることが, 実際に提示された刺激音の評価に影響を及ぼしていることが明らかとなった。また, 映像と音情報との整合性や映像の動きが聴覚的な評価に影響を及ぼすことが示された。
著者
柳沢 猛 中村 喜十郎 白柳 伊佐雄
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.31, no.11, pp.661-666, 1975-11-01

In this paper, the vibration system of a piano string and a sound board (Fig. 1) is analyzed by the finite element method (Fig. 2). The string is stretched with constant tension P between the upper bearing and the lower bearing, and is assumed to be completely flexible. The mass point m are distributed along the string at equal distances, and m_1 indicates the upper bearing, m_&lt103&gt the lower bearing, m_&lt97&gt the equlivalent mass of the sound board, and k the spring constant. It is also assumed that the mass-point of the hammer m_H collides with the point m_N on the string with an initial velocity x^^^. _H, that they repel each other according to Newton's law, and that m_N is decelerated by the tension P. Then it collides with m_H again, and this series of motions is repeated. These motions of all points m_i, m_H, m_N are expressed by Eqs. (1), (2), and (3). The flow diagram of the program is shown in Fig. 6. The calculated values by this simulation program and the measured values of an actual piano are presented in Figs. 7 and 8. Comparisons between them show good agreement.
著者
藤崎 博也 須藤 寛
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.27, no.9, pp.445-452, 1971-09-10
被引用文献数
42

Prosodic features in speech can be interpreted as responses of the underlying mechanisms to a set of linguistic commands. This paper presents a quantitative model for the mechanisms of generating fundamental frequency contours of word accent of standard Japanese. All the types of word accent of standard Japanese are characterized by the existence of a transition in the subjective pitch, either upward or downward, at the end of the initial mora, and by the fact that no more than one downward transition is allowed within a word. Table 1 lists are patterns of subjective pitch of all the possible accent types of words that consist of up to 5 morae. These binary patterns, however, never manifest as such in the fundamental frequency contours. Analysis of utterances of a number of speakers (Fig. 1) indicates that the logarithmic fundamental frequency contours of the same word accent, when normalized both in time and in frequency, are essentially similar(Fig. 2 and Fig. 3). These observations lead to the model of Fig. 4 based of the following assumptions:(1) Each type of word accent can be characterized by a unique logarithmic contour. (2) Commands for voicing and accent take the form of binary input to the system. (3) Separate mechanisms exist for voicing and accent, which can be approximated by linear system that convert the binary commands into the respective control signals(Fig. 5). (4) These control signals are combined and applied to the mechanism of glottal oscillation, whose fundamental frequency is an exponential function of the control signal. (5) The glottal mechanism shows hysteresis specified by the onset and cessation of the oscillation(Fig. 6). In order to investigate the validity of the model, fundamental frequency contours of various utterances of isolated words were extracted by a Computer program(Fig. 7) and were analyzed by the method of Analysis-by-Synthesis(Fig. ). A few examples of the comparison of the extracted fundamental frequency contour and its closest approximation obtained by the A-b-S procedure are shown in Fig. 9
著者
中村 哲 花沢 利行 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.45, no.12, pp.942-949, 1989-12-01
被引用文献数
4

本論文では、筆者らがすでに提案した話者適応化アルゴリズムをHMM音韻認識に適用する。HMMに適用する際には、動的特徴を考慮したセパレートベクトル量子化、ファジィベクトル量子化、ファジィヒストグラム、ファジィマッピングを用いる。更に、HMMとの効率的な整合のために、対応づけヒストグラムを標準話者のファジィ級関数としてファジィHMMを計算する話者適応アルゴリズムを用いる。音韻バランス216単語、重要語5,240単語を用いて有声破裂音/b,d,g/及び全音韻の音韻認識実験を男女計3名の話者について行った結果、次の事柄が確かめられた。(1)動的特徴を考慮したセパレートベクトル量子化を用いることにより有声破裂音の認識率が6.4%改善できる、(2)ファジィベクトル量子化を用いることにより有声破裂音の認識率が3.4%改善できる、(3)ファジィヒストグラムを用いることにより話者適応化の学習に必要な単語数を100単語から25単語に削減しても認識率の低下を0.4%に抑えられる。また、有声破裂音の認識率は、男性間で83.1%、男女間で76.5%で、従来法[M.Feng et al. ICASSP 88]との比較では11.7%の認識率の改善となること、全音韻の認識では、男性間で75.6%、男女間で71.8%で、上位3位までの累積認識率では、男性間、男女間いずれの場合にも約91%を達成できることが分かった。
著者
加藤 裕一 山口 静馬
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.44, no.7, pp.510-514, 1988-07-01
被引用文献数
9

本論文は、特に信号機付近での非定常騒音レベル変動に着目し、その分布形予測に関する一試みを行ったものである。具体的には、騒音レベル統計量の信号機に起因する周期的変動にまず着目し、これを解析の内に積極的に反映させることによって、長時間スケールで示すレベル変動分布に対する統計処理方法を考察してる。次いで本手法を実測データに適用し、非定常騒音を定常だとみなした場合には分布の予測誤差は大きくなることを示している。更に、レベル統計量の変動パターンを単純化することにより予測方法の実用化を提案すると共に、その有用性を検証している。
著者
三浦 光
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.9, pp.677-684, 1994-09-01
被引用文献数
8

3次元の空中定在波音場を形成するための超音波音源として、たわみ振動の節が格子状になるモードの方形振動板を考えた。振動板の設計方法を明らかにして、たわみ振動する超音波音源を製作した。このたわみ振動板は、振動の節線が板の端辺と45°の傾きを持つ格子状の振動モードを用いる。たわみ振動板の振動分布の計算結果は、振動分布の測定、及び板面近傍の音圧分布の測定によって確かめた。また、この振動板について板から十分遠方での指向性を、理論的、及び、実験的に検討したところ、両者の結果はよく一致した。振動板から放射される音波は板の四つの端辺に沿った方向で、板面に垂直な方向からたわみ振動の波長と空気中の音波の波長との比で決まる角度に四つの鋭い主極があることが分かった。
著者
Yamasaki Yoshio Itow Takeshi
出版者
一般社団法人日本音響学会
雑誌
Journal of the Acoustical Society of Japan (E) (ISSN:03882861)
巻号頁・発行日
vol.10, no.2, pp.101-110, 1989
被引用文献数
41 43

When we estimate a sound field in a room, it is important to grasp the spatial informa-tion, especially of the early reflection periods. In this paper we'll discuss a way to grasp the spatial information of sound fields from impulse responses measured at closely located four points, the origin and three points of the same distance (3∼5cm) from the origin on the rectangular coordinate axes. From these four impulse responses the coordinates and powers of virtual image sources are calculated by correlation technique or intensity technique. Concert halls, opera theaters and many other sound fields are measured by this technique. The distributions of virtual image sources and directivity patterns of some concert halls are shown.
著者
宮坂 栄一
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.8, pp.569-572, 1999-08-01
被引用文献数
9
著者
金田 豊
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.44, no.1, pp.23-30, 1987-12-25
被引用文献数
22

本稿では、周波数領域においてAMNORの理論を述べ、その指向特性に検討を加えた。その結果、AMNORは従来の指向性マイクロホンを、指向特性という観点において包含するものであることを示した。更に、従来の指向性マイクロホンの指向特性が最適であるのは、ある特定の雑音条件に対してのみであるのに比べ、AMNORは、任意の雑音条件に対して適応的に最適指向特性を形成する。このことを実現するためにAMNORは、1)雑音到来方向に対して(マイクロホン素子数-1)個の死角(感度がゼロの方向)を形成する、2)死角以外の指向性形状も最適化する、3) 1)、2)の指向特性の制御を、周波数帯域ごとに独立に行う、ことを明らかにし、実験により確認した。
著者
庄司 光 山本 剛夫 高木 興一
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.22, no.6, pp.350-361, 1966-11-30
被引用文献数
12

In order to investigate whether the critical band concept can be applied to the problem of temporary threshold shift (TTS) , three experiments (I, II, III) were carried out using five subjects with normal hearing acuity. In experiment I, thirteen high pass and thirteen low pass noises obtained by filtering white noise were used. The cut-off frequency of these noises are shown in Fig. 1. They were at intervals of 1/6 octave. The over-all SPL of white noise was 95dB. Durations of exposure were 5, 15, 35 and 55 minutes, and post-exposure threshold measurements at 3, 4, 6 and 8kc were made whithin 3 minutes after cessation of exposure. Fig. 2 shows the results of experiment. TTS due to low pass and high pass noises increased to a certin value as the bandwidth became larger, but when it reached to this limiting value, it remained constant regardless of the bandwidth of exposure noise. It may be concluded from this fact that only those components of the noise which are included in limited frequency regions are effective and that the components beyond this regions are ineffective in TTS. This is in agreement with the basic notion of the critical band. In experiment III, twelve exposure noises having linear spectrum were used (Table 1). The spectra of these noises are given in Fig. 3. TTS at nine frequencies from 0. 5kc to 8kc were measured within about 6 minutes after cessation of 20 minutes' exposure. Fig. 4 shows the TTS due to exposure to these noises at a level of 100dB. As a whole, 0dB/oct noise was most effective and -6dB/oct noise least effective. But TTS at frequencies below 2kc were not noticeable in all cases. In experiment III, four 1/6 octave-band noises (2240-2500cps, 2800-3150cps, 4500-5000cps, 5600-6300cps) whose spectrum level are equal to that of 0dB/oct noise at 100dB were used. Test frequencies and exposure time were the same as in experiment II. Fig. 5 indicates the results of this experiment. The maximum effects were found at 3, 4, 6 and 8kc respectively for the exposure noise 2240-2500cps, 2800-3150cps, 4500-5000cps, and 5600-6300cps. Using the data obtained from experiment II and III, the center frequency and width of the critical band were estimated by the following method. 1) Estimation of the center frequency of the critical band. The basic assumption is that TTS at frequency F is expressed as TTS_F=aX+b. . . . . . . . . . (1) a, b: Constants that depend on exposure time, test frequency, and the time when TTS is measured. X: Critical band level and is expressed as X=S(F_c)+10log_<10>&lrtri;f. . . . . . . . . . (2) S(f_c): Spectrum level at the center frequency of the critical band f_c: Center frequency of the critical band &lrtri;f: Critical bandwidth When the spectrum of noise is a linear function of log_2f, S(fc)=αlog_2f_c+β. . . . . . . . . . (3) α: Spectrum slope (dB/oct) β: intercept (dB) From Equations (1), (2) and (3), TTS_F=a(αlog_2f_c+β-L). . . . . . . . . . (4) where L≡-(10log_<10>&lrtri;f+b/a) Equation (4) means that TTS becomes a linear function of the spectrum level at the center frequency of the critical band. Using the data of experiment II, the value of a, f_c, and L were calculated for 3, 4, 6 and 8kc by the following least squre method. &lrtri;=Σ{y_i-a(α_ilog_2f_c+β_i-L)}^2 ∂&lrtri;/(∂a)=0, ∂&lrtri;/(∂f_c)=0, ∂&lrtri;/(∂L)=0 where y_i is TTS produced by noise whose spectrum is α_ilog_2f+β_i. The results are shown in Fig. 6. From these figures, it is noticed that TTS is expressed as a linear function of spectrum level at the center frequency of the critical band. Center frequencies are about one-third to two-third octave below test frequencies. 2) Estimation of the critical bandwidth. Let the TTS at certin frequency produced by wide-band noise (I) in Fig. 7 be Y, and the TTS by narrow-band noise (II) whose cut-off frequencies are included in the critical band be y, then Y=a(S_1+10log_<10>&lrtri;f)+b y=a(S_2+10log_<10>&lrtri;F)+b S_1: Spectrum level of Noise