著者
尾崎 晃 マルタ ルーカス 西脇 由博 宮島 千代美 北岡 教英 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.312, pp.33-38, 2008-11-13
被引用文献数
4

自動車の運転とそれに付随する音声対話を観測した,マルチメディア信号コーパスを構築している.広い範囲の人間の『行動』を,様々な視点から説明できるモデルの研究を推進することを究極の目的として,音声・映像により記録される自動車内外の状況に加え,動作,生理,心理といった運転者の状況,速度や車間距離といった自動車の状況を様々なセンサーにより計測している.さらに,米国,トルコ等との国際協調により,海外の2拠点ともほぼ同じ方法でデータ収集を行った.本稿では,コーパス構築の状況と収集されたデータについて概説するとともに,収集したマルチメディア信号を用いた研究の概要について報告する.
著者
原 直 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.167-172, 2006-12-21
被引用文献数
5

実際の利用環境に近づけた被験者実験を行うために、WWW 経由でカスタマイズ可能な音声対話システム及びそのデータ収集システムを構築した。本システムのユーザは自分のPCに音声認識システムをインストールし利用する。不特定多数のユーザに対応するために、インターネット上に用意されたリモートサーバ上で各ユーザが本システムのカスタマイズすることが可能である。さらに、本システムを利用する各ユーザのPCで収録された音声データはインターネットを通してリモートサーバに送信される。本システムを利用することにより、複数のユーザによる実環境下における音声認識システム利用時データを収集することが可能になる。本論文では実際に本システムを使用したフィールドテストを行いデータ収集及び分析を行った。インターネット上に公開して2ヶ月間で59時間のデータが収集され、そのうち約5時間41分のデータ(11351個)が音声区間として検出されていた。認識実験の結果、検出された音声データからシステムに対して発話されていた音声データ4716発話を評価用データとした場合の単語正解率は66.0%であり、各ユーザ毎に教師無し MLLR 適応を行うことで単語正解率は70.5%に向上した。We developed a user customizable speech dialogue system and a framework for automatic speech data collection in field experiments over the Internet. Users can download and install the speech dialogue system onto their own PCs and customize the system on a remote server for their own use. The speech dara recorded on their PCs are transferred to the remote server through the Internet. The system enables us to collect speech data spoken by many users with wide variety of acoustic environments. During a two-month field test, we obtained 59 hours of recorded data including 5 hours and 41 minutes detected as speech, which corresponds to 11351 speech segments. The word correct rate for the 4716 speech utterances spoken to the dialogue system was 66.0%, which was improved to 70.5% after applying unsupervised MLLR for each user.
著者
福嶋 慶繁 丹羽 健太 圓道 知博 藤井 俊彰 谷本 正幸 西野 隆典 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.91, no.8, pp.2039-2041, 2008-08-01
被引用文献数
7 2

本論文は,三次元の音声・映像を統合した新たなメディアを提案する.まず,多数のカメラ,マイクロホンを並べたカメラアレー,マイクロホンアレーで,多視点・多聴点データを撮影した.次にそのデータより自由視点映像,自由聴点音声を生成し,自由視聴点映像の生成に成功した.
著者
高橋 量衛 大石康智 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.102, pp.43-48, 2007-10-12
被引用文献数
1

本研究では、ユーザが閲覧している Web ページにふさわしい BGM を、自動的に選曲するという新しい楽曲検索(推薦)システムを提案する。閲覧ページのテキストに含まれる語彙の共起から、それらの語彙に関連する楽曲の検索、推薦を行う。そのためには、語彙の共起に基づく特徴空間と楽曲の音響的特徴空間とを関連付ける必要がある。我々は、線形変換を用いてこの関連付けを実装した。さらに、Web から収集した楽曲のレビューのようなテキストデータと、その楽曲の音響特徴量を用いて、関連付けの性能評価実験を行った。その結果、各楽曲に対し 1 つのレビューを利用するより、曲名とアーティスト名を含む Web ページを複数利用した場合に関連付け性能が高いことを確認した。A new music information retrieval application, WEB-BGM that automatically selects and plays the background music for the web page under browsing is proposed. In order to find for the song that is 'near' to the browsing page, the song is needed to be located in the document space. However, in general, the documents relevant to the song, e.g. reviews of the song, are not available for each songs. Therefore, we train a matrix that transforms a document vector onto acoustic space so that to find 'nearest' song to the web page in the acoustic space. The feasibility of the idea is confirmed through preliminary experiments using song reviews and Web pages including the song title and artist name.
著者
河口 信夫 松原 茂樹 若松 佳広 梶田 将司 武田 一哉 板倉 文忠 稲垣 康善
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.523, pp.61-66, 2000-12-15
被引用文献数
2

本稿では、名古屋大学音響情報研究拠点(CIAIR)で構築中の実走行車内音声対話コーパスの設計と特徴について述べる。道案内や店情報検索をタスクとする162対話を対象とした特徴分析の結果、(1)ドライバーの発話速度は通常の対話音声に比べて遅く、5〜7(mora/sec)である、(2)ドライバーの発話におけるフィラーの出現頻度は、1発話単位あたしり0.33個、1秒あたり0.174個であり、通常の人間対人間の自由対話に比べて少ない、(3)車両の走行中と停止中とでは、発話速度や話し言葉に特有な現象の出現に関して差がない、(4)停止中に比べ走行中の発話には、感動詞、及び、文発声途中でのポーズの出現頻度が高い、ことなどが明らかになった。
著者
西野 隆典 梶田 将司 武田 一哉 板倉 文忠
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.2, pp.91-99, 1999-02-01
被引用文献数
47

ヘッドホン受聴では, 頭部伝達関数(Head Related Transfer Function ; HRTF)を用いることにより, 立体音場を忠実に再生することができる。しかし, HRTFは方向に依存した関数であるため, HRTFを用いた聴覚バーチャルリアリティシステムでは, 測定した音源方向については忠実な立体音場が再生できるが, その他の音源方向については, 再生に必要なHRTFを新たに測定するか, すでに測定されたHRTFから推定して求める必要がある。しかし, HRTFの補間が可能であれば, 少数の測定HRTFから全方位のHRTFが作れるため, データ削減の有効な手段となるだけでなく, 滑らかな移動感を得ることができる。本論文では, (1)線形2点補間, (2)主成分分析を用いた補間の2手法を用いて, 水平面上のHRTFのインパルス応答と周波数振幅応答の補間可能性を, 客観基準と主観基準(移動感並びに方向定位感)により評価した。その結果, (1)水平面上のHRTFは45゜もしくはそれ以下の角度間隔で測定を行い, 未知のHRTFはそれらから補間可能であること, (2)線形2点補間は主成分分析による補間手法と比べて, より良い補間が可能なこと, (3)補間対象のインパルス応答と周波数振幅応答の間では, 補間精度の有意な差はなく, 位相は最小位相であっても良いことが明らかになった。
著者
川岸基成 川渕将太 宮島千代美 北岡教英 武田一哉
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.13, pp.1-6, 2014-02-16

合唱歌唱時に生じる歌声の "引き込み" を利用して歌唱の基本周波数 (F0) を目標とする音高に誘導制御することを試みる.我々はこれまで,他者の歌声を受聴しながら歌唱したときの歌声への影響を歌声の引き込みという観点から分析し,1 つの質点と 2 つのばねで構成されるばね質量系を用いて,歌声の F0 動特性をモデル化した.本稿では,合唱歌唱の F0 動特性を表現するばね質量モデルを利用して歌唱の F0 を制御する手法を提案する.本手法では,合唱歌唱のばね質量モデルに基づき各歌唱者の引き込みの特徴を分析し,引き込みを考慮した誘導音を合成,受聴させることにより,目標音高に近づくように F0 を制御する.評価実験では,目標音高を受聴しながら歌唱した歌声と誘導音高を受聴しながら歌唱した歌声を目標音高との RMSE で評価し,誘導音高を受聴することで被験者 8 人中 5 人の RMSE が減少するという結果を得た.
著者
河原 達也 住吉 貴志 李晃伸 武田 一哉 三村正人 伊藤彰則 伊藤 克亘 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.100, pp.37-42, 2001-10-19
参考文献数
20
被引用文献数
24

連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.
著者
西村 竜一 梶田 将司 武田 一哉 板倉 文忠 鹿野 清宏
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827837)
巻号頁・発行日
vol.42, no.3, pp.605-613, 2001-03

本論文では, Webベースのオンライン教育環境に音声入力機能を加えるWebSPEAC(Web SPEech Acquisition for Courseware)Systemを提案する.これまで, Webベースオンライン教育環境では, 音声を出力する教材の作成は可能だったが, 音声入力のできる教材やコミュニケーションツールの提供はできなかった.本システムは, (1)Webブラウザには音声入力機能のみを提供し, 音声を用いるアプリケーションプログラムはWebサーバ上で一括管理するので保守性が高い, (2)クライアント側は, 簡単な初期設定のみで利用できる, (3)サーバプッシュを利用してWebでの音声入力インタフェースを実現している, という特徴があり, 音声を用いたインタラクティブなWebベースのオンライン教材の作成を可能にする.また, 本システムの応用例として, Webベースの入力音声分析ソフトウェア, 音声確認システム, 受験者認証システムを作成した.このうち, 音声入力部分について, 入力音声分析ソフトウェアを利用してファイルアップロードによる従来システムとの比較実験を行った.その結果, 本システムはステップ数, 誤りステップ数, タスク完了時間において操作コストを削減できることが確認できた.
著者
川渕将太 宮島千代美 北岡教英 武田一哉
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.2, pp.1-6, 2013-03-08

楽曲検索に関して,楽曲の音響情報を用いて楽曲間の主観的類似度を推定する手法について検討する.本研究では,楽曲間の主観的類似度は楽曲間の音響的類似度と聴取者の個人性により決定されると考える.本研究はこのうち聴取者の個人性に焦点を当て,聴取者間にどのような差異があるかを明らかにし,主観的類似度推定のモデルに組み込むことを目的としている.聴取者の個人性に関する先行研究の結果より,楽曲が音響的にどの程度似ていたら似ていると感じるかに大きな個人差が存在することが示唆された.本稿ではこの 「音響的にどの程度似ていたら似ていると感じるか」 を聴取者の 「許容度」 と呼び,許容度を含んだ主観的類似判定のモデルを提案する.実験では,楽曲間類似度の主観評価データを用いて聴取者の許容度を推定すると共に,実用の場面においてこの許容度を少数の類似性評価の結果を用いて推定することが可能であるかを確認する.
著者
李 晃伸 河原 達也 武田 一哉 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.12, pp.2517-2525, 2000-12-25
被引用文献数
47

大語彙(い)連続音声認識のための新たなphonetic tied-mixture(PTM)モデルを提案する.このモデルは各音素モデル(monophone)の各状態がもつ64個のガウス分布集合をtriphoneの対応する状態に割り当て, 重みのみを変えて共有することで合成する.通常の状態共有triphoneに比べて音響空間を効率良く表現でき, また巨大なコードブックを要する従来のtied-mixtureモデルよりも学習が容易である.2万語の新聞記事読み上げタスクにおいて評価した結果, triphoneでの最大性能に近い7.0%の単語誤り率をより少ないパラメータ数で達成した.処理効率の点においては, 音響スコア計算に用いるガウス分布を上位3%にまで削減しても精度がほとんど低下しなかった.いくつかのガウス分布の足切り計算(Gaussian pruning)手法を提案及び比較した結果, 最終的に音響ゆう度計算を約5分の1にまで削減できた.
著者
鳥田 宏行 武田 一夫
出版者
日本森林学会
雑誌
日本森林学会誌 (ISSN:13498509)
巻号頁・発行日
vol.89, no.1, pp.39-44, 2007 (Released:2008-07-10)
参考文献数
27
被引用文献数
2 2

森林の雨氷害を軽減する知見を得るため,2004年2月に北海道日高町で発生した雨氷害の調査データを解析したところ,直径階ごとの本数被害率の分布形状は,大きく五つのタイプ((1)中庸木に被害が多い,(2)劣勢木に被害が多い,(3)優勢木に被害が多い,(4)立木のサイズに関係なく被害率の変動が激しい,(5)直径階の大小に関わりなく被害率が一定)に分類された。分布形状に差異がみられるのは,風や着氷量などの気象因子が少なからず影響したためだと推察される。また,密度管理図上で軽害林分と激害林分間の判別分析を行った結果,的中率は75%であった。判別分析で得られた判別式と収量比数0.9線を用いて安全域と危険域の境界線を描き,被害軽減が期待できる範囲を密度管理図上に示した。次に,林分平均樹高との限界形状比の関係をロジスチック式で近似して限界形状比曲線を求めたところ,生育段階で限界形状比は異なることが示された。これらの結果は,森林の雨氷害を軽減するためには,植栽密度に沿った適切な間伐が重要であることを示唆している。
著者
大石康智 亀岡 弘和 柏野 邦夫 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.78, pp.89-96, 2008-07-30
被引用文献数
1

歌声の基本周波数 (F0) 軌跡から,歌唱者が意図する旋律概形と歌声の動的変動成分を同時推定する手法を提案する.これまで,旋律概形を表す区分的に一定な階段状の入力信号に、ビブラートやオーバーシュートなどの動的変動因子を表す 2 次系のインパルス応答を畳み込むことによって,F0 軌跡を生成するための制御モデルが提案された.しかし,観測される F0軌跡だけから,それぞれの信号を推定する逆問題は不良設定問題であるため,従来のモデルではこの問題を解くことができなかった.そこで,我々は階段状の拘束をもつ特殊な入力信号を隠れマルコフモデル (HMM) でモデル化し,2 次系を含むシステムの伝達関数を全極モデルで表現することで,Viterbi 学習と線形予測分析 (LPC) 的な解法の反復により,モデルパラメータを効率的に推定するアルゴリズムを提案する.本稿ではその定式化と実装を行い,観測される F0 軌跡から旋律概形と動的変動成分をともに推定できること,さらに推定されたパラメータによって F0 軌跡を生成可能であることを確認する.In this paper, we propose a novel representation of F0 contours that provides a computationally efficient algorithm for automatically estimating the parameters of a F0 control model for singing voices. Although the best known F0 control model, based on a second-order system with a piece-wise constant function as its input, can generate F0 contours of natural singing voices, this model has no means of learning the model parameters from observed F0 contours automatically. Therefore, by modeling the piece-wise constant function by Hidden Markov Models (HMM) and approximating the transfer function of the system by the all-pole model, we estimate model parameters optimally based on iteration of Viterbi training and an LPC-like solver. Our representation is a generative model and can identify both the target musical note sequence and the dynamics of singing behaviors included in the F0 contours. Our experimental results show that the proposed method can separate the dynamics from the target musical note sequence and generate the F0 contours using estimated model parameters.
著者
黒岩 眞吾 武田 一哉 井ノ上 直己 野垣内 出 山本 誠一 庄境 誠 尾和 邦彦 長濱 克昌
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. A, 基礎・境界 (ISSN:09135707)
巻号頁・発行日
vol.77, no.2, pp.223-231, 1994-02-25
被引用文献数
6

内線電話への接続をタスクとする音声対話システムを作成した.同システムは200人規模の組識の電話受付業務を行うもので,電話で所属と名前を言うだけで相手の内線に電話をつなぐシステムである.不特定話者の連続音声認識を実時間で行うために専用のハードウェアを開発した.ハードウェアは浮動小数点DSP9個を疎結合マルチプロセッサ方式で結合し,パイプライン処理により,エコーキャンセル,音響分析,HMMのゆう度計算および単語レベル,文法レベルでのビタビ演算を並列に実行する,並列化にあたっては,最も処理の重くなったプロセッサにプロセッサ間のデータ転送に伴う待ち時間が生じないようなパイプラインスケジューリングを行っている.また,タスクサイズが大きくなッた場合でも音響分析は一定の周期で行えるよう同期処理,非同期処理を混在させた構成とした.電話回線経由で収集した400名の発声による音素バランス4,000文を用いて学習した音素モデルを用い実環境で評価したところ,91%の呼に対して正しい相手の内線番号が案内でき,それに要した平均所要時間は41秒であり,多くのユーザによる利用が期待できる性能であることが確認された.
著者
中山 迅 牛島 克宏 山口 悦司 都築 章子 武田 一則 竹内 慎一 後藤 大介
出版者
日本教育工学会
雑誌
日本教育工学会論文誌 (ISSN:13498290)
巻号頁・発行日
vol.28, pp.93-96, 2005
被引用文献数
3

観察と実験の実施が重視される教科としての理科では, 授業へのICT導入が順調とは言えない.本研究では, 電子掲示板を利用した理科の学校間協同学習によって, 児童による観察や実験を中心とした学習を促進できる事例を示そうとした.電子掲示板の対話分析や児童を対象とした質問紙調査の結果から, その可能性が示唆された.
著者
梶田 将司 小林 大祐 武田 一哉 板倉 文忠
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.53, no.5, pp.337-345, 1997-05-01
被引用文献数
31

人間が音声として知覚する音がその他の音とどのように異なるのかを探求するため, 本研究では, ヒューマンスピーチライク(HSL)雑音を導入し, HSL雑音に含まれる音声的特徴を分析する。HSL雑音は, 複数の音声を加算的に重畳して作られるバブル雑音の一種で, その重畳回数に応じて音声的な信号から音声の長時間スペクトルを反映した定常雑音へと聴感は変化する。まず, この聴感上の変化を主観評価実験により定量化する。そして, HSL雑音に含まれる音声的特徴を振幅分布のガウス性, スペクトル微細構造の時間的変動性, スペクトル包絡の時間的変動性の三つの観点で分析した。その結果, HSL雑音の差分信号のガウス性及び, HSL雑音のスペクトル包絡の時間的変動が音声的特徴に大きく寄与していることが分かった。
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。