著者
玉森 聡 石黒 祥生 廣井 慧 河口 信夫 武田 一哉
雑誌
情報処理学会論文誌コンシューマ・デバイス&システム(CDS) (ISSN:21865728)
巻号頁・発行日
vol.9, no.2, pp.33-46, 2019-05-24

名古屋大学COIでは,高齢者が元気になるモビリティ社会の実現を目指した研究開発を進めている.高齢者が「いきいきした生活」を送るために,外出や他者とのコミュニケーションを継続的に行うことが重要である.我々は高齢者の外出促進を目的として,スマートフォンを利用した個人適応型行動認識とチャットアプリケーションを開発した.これは,高齢者の行動を逐次認識し,蓄積されたデータを活用して地域のイベントなど外出につながる情報を,チャット対話を通じて高齢者に提示する外出促進チャットアプリケーションである.本論文では,愛知県豊田市にて10名の実験協力者に対し実証実験を行い,実環境下での行動認識結果の報告およびアプリの実現可能性や製品化に向けての問題点の確認を目的としている.この実証実験から,アプリに導入した個人適応学習型行動認識について,実環境下で特定の行動「テレビの視聴」の認識が最大46%の精度で可能であることが分かった.この認識結果に基づいたチャットが行える一方で,行動認識上の問題点として,周囲の環境音が大きく精度に影響を与え,チャットのやりとりの阻害原因になる.それゆえ,誤った認識結果に基づくチャットをできるだけ減らす必要があり,より多くの高齢者の外出促進を行うには年齢や忙しさに応じた会話内容や提示内容,提示手法の検討も必要であることが分かった.
著者
勅使河原 三保子 伊藤 克亘 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.105, no.291, pp.39-44, 2005-09-09
被引用文献数
1

本研究では日本のアニメにおける善玉と悪玉の音声の比較を行った.不快感情を表すことが多い悪玉の声は, 不快感情が持つ音声的特徴を反映するという仮説が立てられ, Laverの声質記述の枠組みを用いた受聴による分析により, 悪玉の声には咽頭部分の狭めまたは拡張が聴覚的に認められた.咽頭部分の狭めやそれに伴う調音的特徴は, 不快感情を表す音声に予測された特徴であった.日本語母語話者を対象とした聴取実験において, 咽頭部分の形状について対比させた刺激音を用い, 咽頭部分の形状が人物の印象(外見, 性格, 感情)を左右することが確認された.
著者
大橋 宏正 北岡 教英 原 直 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.110, no.219, pp.59-64, 2010-10-01

音声を連続音声認識システムにより常時認識することによって得られる認識単語列からその場の雰囲気に適切な音楽・楽曲を提案し,再生するシステムを構築した.楽曲を説明するテキストより構築された文書ベクトル空間と,楽曲の音響特徴量を表現する音響ベクトル空間の対応付けを利用することで,大語彙音声認識によって得られた音声認識単語列を音響ベクトル空間へとマッピングする.また,大語彙音声認識ではカバーできない固有名詞などのキーワードをワードスポッティングで認識する.本稿ではシステムの概要と基本的な性能評価の結果と実際の雑談音声への応用に向けた予備実験結果を示す.楽曲のレビューを読み上げた音声を認識した結果による楽曲検索結果と,レビューのテキストを用いた結果との比較により,テキストではMRR値1で検索できたものが,音声認識性能はWER70.55%,ワードスポッティング性能はF値31.58%でもMRR値0.83と比較的良い結果を得た.また,今後の雑談認識の応用の予備的実験を行い,雑談書き起こしからの例を示した.
著者
武田 一哉
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2016-MUS-111, no.3, pp.1, 2016-05-14

机の前の本棚の目に着く場所に 2 つの学位論文を置いている.一つは学生時代の指導教官であった池谷和夫先生の論文 「形成振動板に関する研究」 もう一つは,若手教員時代の上司であった板倉文忠先生の論文 「統計的手法による音声分析合成系に関する研究」 だ.共に電電公社の研究所で執筆された 2 つの論文である.物理数学の集大成のような前者と,確率数理を駆使した後者.おなじ 「音学」 の論文でありながら,この 2 つの論文のアプローチには,12 年間という出版年の違い以上に本質的な違いがある.物理学としての音学から,情報学としての音学へ,我々はそんな変化の中で音学を研究して来たのだ.そして思い返せば,この音学の変化こそ,データサイエンスという巨大なパラダイムシフトの前兆であったのだ.
著者
尾崎 晃 草川 高志 西脇 由博 マルタ ルーカス 宮島 千代美 西野 隆典 北岡 教英 伊藤 克亘 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.93, no.10, pp.2118-2128, 2010-10-01
被引用文献数
3

人間の行動を真に理解するためには,行動を記録すると同時に心的状態を知る術も同時に記録する必要がある.更にこのようなデータが大量に必要となる.そのような研究のための第一歩として,自動車実走行環境における自動車挙動を含む運転操作信号,生体信号などのデータを同期測定・記録する機器を作成した.様々な運転環境の負荷を調査するため,平静の運転をはじめ,標識や看板などを見る,イヤホンを通じて英数字を聞いて発音する,携帯電話でナビゲータと会話をする,そしてコンピュータと音声対話を行う4種類のタスクを自動車走行中に実施している.運転行動を測定するため,アクセルペダル踏力,ブレーキペダル踏力,ステアリング操作角,走行位置,車速,加速度,車間距離を収録する.また生体信号を測定するため,心拍数,皮膚電位,発汗量のセンサを搭載している.運転手と交通状況は,四つのビデオカメラと全方位カメラによって動画として記録する.運転手とナビゲータの声は,携帯電話と車内に配置されたマイクロホンで計12チャネル録音する.これらのマルチモーダルデータは同期して収録できる,2008年末までに,357名の被験者を募集して実験走行を行った.走行環境,運転行動,発話内容などに応じて詳細なラベルを定義し,実験後に運転データへ手作業で付与した.更に,このデータベースを用いた研究例を挙げ,データベース活用による今後の人間行動理解の可能性を示した.
著者
寺西 真聖 筒井 和詩 武田 一哉 藤井 慶輔
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第36回 (2022) (ISSN:27587347)
巻号頁・発行日
pp.3G4OS15b05, 2022 (Released:2022-07-11)

サッカーは22人の選手とボールが複雑に相互作用する競技である。サッカーの攻撃選手の定量的評価については、ボール保持状態に関する研究が多く、数は少ないがボール非保持状態に関する研究も行われている(例えば[1] Spearman et al. 2018)。しかし、ボールを保持せず、受け取らない攻撃選手の評価が難しく、典型的な(あるいは予測された)動きと比べて、どのように動いたことが得点機会の創出に寄与するかを明らかにすることが難しい。本研究では、軌道予測により生成された基準となる動きを実際の動きと比較して、オフボールの得点機会を創出する選手を評価する。提案手法では、まず正確に選手間の関係性をモデル化し長期軌道予測が可能な、グラフ変分再帰型ニューラルネットワークを用いて軌道予測を行う。次に、ボール非保持状態を評価する既存手法[1]の実データの値と軌道予測の値の差に基づき、基準となる予測された動きと比べて、どのように動いたことが得点機会の創出に寄与したかを評価する。検証では、Jリーグの全18チームとの得点との関連やある1試合の例を用いて、提案手法の評価が直観に合うことを示す。
著者
坂野 秀樹 武田 一哉 鹿野 清宏 板倉 文忠
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌A (ISSN:09135707)
巻号頁・発行日
vol.J81-A, no.2, pp.261-268, 1998-02

スペクトル包絡と音源の独立操作により, ある話者の音声を別の話者へと連続的に変化させる音声モーフィングを提案する.本手法では次の手順で音声モーフィングを実現する.1)時間領域におけるDPマッチングにより単位波形の対応をとる.2)単位波形をスペクトル包絡と音源に分離する.3)周波数領域のDPマッチングにより周波数軸を非線形に伸縮し, スペクトル包絡間の対応付けを行う.4)スペクトル包絡および音源の補間を行う.5)位相情報を付与し, 単位波形を得る.6)PSOLA法により合成する.この手法を用いることによって自然音声の時間的変化に比較的近い補間が可能となり, 音声の調音結合部分をモーフィングにより生成する実験を行った結果, ケプストラム距離において従来法に比べ1.9dBひずみを減少させることができた.また, 対比較試験では男性から女性へのモーフィングにおいて89%, 女性から男性へのモーフィングでは93%の割合で本手法の方が品質が良いと判断されており, 本手法の有効性が示された.
著者
中原 啓 武田 一哉 藤井 慶輔
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第36回 (2022)
巻号頁・発行日
pp.3G4OS15b04, 2022 (Released:2022-07-11)

近年、測定技術の向上に伴い、野球の応用的なデータ分析が広く行われるようになった。グラウンド上のあらゆるプレーが定量的に評価され、個人やチームの戦略に大きな影響を及ぼしている。個人の打撃貢献を表す指標としてwOBAという指標がよく知られているが、wOBAは走者状況や点差などの試合状況を考慮しない。しかしながら、実際の試合において試合状況を考慮して複数の打撃戦略を使い分けることは一般的であり、その効果は未知である。これは、打者の戦略を第三者が取得できず、効果の推定が困難であるためだと考えられる。そこで本研究では、反実仮想シミュレーションによる効果推定方法を新たに提案する。これを実現するため、打撃戦略の変更にあたって妥当な打撃能力変換を行う深層学習モデルを提案する。本手法によって、実際の試合データでは難しかった、様々な戦略の効果推定が可能となる。検証の結果、打撃戦略のスイッチングコストを無視できる場合、戦略の使い分けが得点を増加させることが明らかになった。また、スイッチングコストを考慮する場合、得点が増加するための条件は限定的であることが明らかになった。
著者
伊藤 太介 武田 一哉 板倉 文忠
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.325, pp.59-64, 2001-09-21
参考文献数
10
被引用文献数
1

本報告では, ささやき声の音響特性と音声認識手法について述べる.データベースとして100名以上の話者が発生した6, 000文以上のささやき声, 通常発生, 顔画像を収録した.ささやき声と通常発声の比較では, 1)ケプストラム距離が有声音で4dB, 無声音で2dBであること, 2)ささやき声のスペクトルの傾きが通常発生に比べ緩やかであること, 3)1.5kHz以下のフォルマント周波数が通常発声に比べ高くなっていることが得られた.収録したささやき声から音響モデル(HMM)を学習し認識を行ったところ, 64%の単語正解精度が得られ, MLLRによる話者適応を用いた認識では, 単語正解精度が76%まで改善された.
著者
西野 隆典 井上 直哉 伊藤 克亘 武田 一哉
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.63, no.1, pp.3-12, 2006-12-25 (Released:2017-06-02)
参考文献数
14

バイノーラル信号は,頭部や耳介などによる音波の反射や回折の影響を含んだ信号である。バイノーラル信号による音源方向推定が実現できれば,あらゆる音源方向を識別するロボット聴覚への応用が可能となる。本論文では,バイノーラル信号を用いた音源方向推定手法の提案,及び評価を行う。両耳間音圧差の包絡のケプストラムを単一ガウス分布で近似した音源方向推定モデルを構築し,残響時間が異なる環境において計測された両耳室内インパルス応答を用いて,提案手法が前後左右だけでなく,上下方向の識別について評価を行った。実験結果より,本提案手法は,異なる残響時間,及び上下方向に対応した音源定位手法であることが示された。
著者
武田 一哉 Takeda Kazuya
巻号頁・発行日
1993-09-29

名古屋大学博士学位論文 学位の種類:博士(工学) (論文) 学位授与年月日:平成5年9月29日
著者
山本 一公 中村 哲 武田 一哉 黒岩 眞吾 北岡 教英 山田 武志 水町 光徳 西浦 敬信 藤本 雅清
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.75, pp.101-106, 2003-07-18
被引用文献数
26 4

本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,雑音 下音声認識評価用共通データベースAURORA-2Jと,その標準評価スクリプトによるベースライン評価結果について述べる.AURORA-2Jは,AURORAプロジェクトの AURORA-2データベースの日本語版として設計され,標準評価スクリプトも AURORA-2で配布されているスクリプトをベースとして開発されている.この共通 評価フレームワークにより,各機関における雑音環境下音声認識手法の性能を容 易に比較することが可能となり,雑音環境下音声認識手法の発展を促すことがで きると考えられる.また,自動車内における数字/コマンド発声データベースで あるAURORA-3Jの開発進捗状況についても述べる.This paper introduces a common database, an evaluation framework, and its baseline recognition result for noisy speech recognition, AURORA-2J, as an outcome of IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. AURORA-2J is designed as Japanized version of the AURORA-2 database and the evaluation framework is based on the AURORA-2 baseline scripts. This common evaluation framework enables to compare various noisy speech recognition techniques on a common ground. We hope more development of noisy speech recognition techniques using this evaluation framework. We also describe about AURORA-3J, digits and speech command database in car environments.
著者
マルタ ルーカス 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.73, pp.19-24, 2006-07-07

運転者のブレーキ操作や発話内容から,運転中の危険な状況を検出する手法について検討した.ブレーキに基づく検出では,ペダル踏力とその時間変化の2次元ヒストグラムを用いて,通常と分布が異なる箇所を検出した.発話に基づく検出では,危険な状況で発すると考えられる単語を音声の書き起こしテキストから検出した.CIAIR対話音声・運転行動信号コーパスのうち,人間と対話中のテータ438名分に対して,人手でビデオ映像と運転行動信号を確認しながら危険なシーンのラベル付けを行った結果,計25箇所の危険なシーンが見つかった.これらのうち,ブレーキ信号,あるいは発話内容に何らかの異常を伴うシーンがそれぞれ17箇所,11箇所存在した.ブレーキ,発話それぞれに基づいて検出を行った結果,80%の正解シーンを検出するために必要な誤検出数はブレーキで473シーン,発話で33シーンであった.また,Wozシステム,音声対話システムの対話中のデータについても同様の実験を行った.We introduce a method for automatically detecting potentially dangerous situations in motor vehicle traffic using driving behavior signals. Our proposed approach focuses on changes in a driver`s behavior, which we detect through brake pedal operation as well as driver speech. Experiments were performed using a large multimedia driving database obtained from the CIAIR project at Nagoya University. We analyzed data from 438 drivers who interacted verbally with a human operator. In eleven of the 25 situations we hand labeled as potentially hazardous, drivers uttered expletive words to express nagative feelings. In 17, sudden and intense compression of the brake pedal was observed. For the detection of 80% of these 17 scenes, the proposed method based on 2D-histograms of brake pressure and its dynamics also detected 473 false positives. As for the other eleven scenes, using our lexicographical speech feature-based method, a detection rate of 80% was achieved for 33 false alarms. We also present an analysis of data recorded while drivers interacted with a machine and a Wizard of Oz system.
著者
尾崎 晃 マルタ ルーカス 西脇 由博 宮島 千代美 北岡 教英 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.312, pp.33-38, 2008-11-13
被引用文献数
4

自動車の運転とそれに付随する音声対話を観測した,マルチメディア信号コーパスを構築している.広い範囲の人間の『行動』を,様々な視点から説明できるモデルの研究を推進することを究極の目的として,音声・映像により記録される自動車内外の状況に加え,動作,生理,心理といった運転者の状況,速度や車間距離といった自動車の状況を様々なセンサーにより計測している.さらに,米国,トルコ等との国際協調により,海外の2拠点ともほぼ同じ方法でデータ収集を行った.本稿では,コーパス構築の状況と収集されたデータについて概説するとともに,収集したマルチメディア信号を用いた研究の概要について報告する.
著者
原 直 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.167-172, 2006-12-21
被引用文献数
5

実際の利用環境に近づけた被験者実験を行うために、WWW 経由でカスタマイズ可能な音声対話システム及びそのデータ収集システムを構築した。本システムのユーザは自分のPCに音声認識システムをインストールし利用する。不特定多数のユーザに対応するために、インターネット上に用意されたリモートサーバ上で各ユーザが本システムのカスタマイズすることが可能である。さらに、本システムを利用する各ユーザのPCで収録された音声データはインターネットを通してリモートサーバに送信される。本システムを利用することにより、複数のユーザによる実環境下における音声認識システム利用時データを収集することが可能になる。本論文では実際に本システムを使用したフィールドテストを行いデータ収集及び分析を行った。インターネット上に公開して2ヶ月間で59時間のデータが収集され、そのうち約5時間41分のデータ(11351個)が音声区間として検出されていた。認識実験の結果、検出された音声データからシステムに対して発話されていた音声データ4716発話を評価用データとした場合の単語正解率は66.0%であり、各ユーザ毎に教師無し MLLR 適応を行うことで単語正解率は70.5%に向上した。We developed a user customizable speech dialogue system and a framework for automatic speech data collection in field experiments over the Internet. Users can download and install the speech dialogue system onto their own PCs and customize the system on a remote server for their own use. The speech dara recorded on their PCs are transferred to the remote server through the Internet. The system enables us to collect speech data spoken by many users with wide variety of acoustic environments. During a two-month field test, we obtained 59 hours of recorded data including 5 hours and 41 minutes detected as speech, which corresponds to 11351 speech segments. The word correct rate for the 4716 speech utterances spoken to the dialogue system was 66.0%, which was improved to 70.5% after applying unsupervised MLLR for each user.
著者
福嶋 慶繁 丹羽 健太 圓道 知博 藤井 俊彰 谷本 正幸 西野 隆典 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.91, no.8, pp.2039-2041, 2008-08-01
被引用文献数
7 2

本論文は,三次元の音声・映像を統合した新たなメディアを提案する.まず,多数のカメラ,マイクロホンを並べたカメラアレー,マイクロホンアレーで,多視点・多聴点データを撮影した.次にそのデータより自由視点映像,自由聴点音声を生成し,自由視聴点映像の生成に成功した.
著者
高橋 量衛 大石康智 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.102, pp.43-48, 2007-10-12
被引用文献数
1

本研究では、ユーザが閲覧している Web ページにふさわしい BGM を、自動的に選曲するという新しい楽曲検索(推薦)システムを提案する。閲覧ページのテキストに含まれる語彙の共起から、それらの語彙に関連する楽曲の検索、推薦を行う。そのためには、語彙の共起に基づく特徴空間と楽曲の音響的特徴空間とを関連付ける必要がある。我々は、線形変換を用いてこの関連付けを実装した。さらに、Web から収集した楽曲のレビューのようなテキストデータと、その楽曲の音響特徴量を用いて、関連付けの性能評価実験を行った。その結果、各楽曲に対し 1 つのレビューを利用するより、曲名とアーティスト名を含む Web ページを複数利用した場合に関連付け性能が高いことを確認した。A new music information retrieval application, WEB-BGM that automatically selects and plays the background music for the web page under browsing is proposed. In order to find for the song that is 'near' to the browsing page, the song is needed to be located in the document space. However, in general, the documents relevant to the song, e.g. reviews of the song, are not available for each songs. Therefore, we train a matrix that transforms a document vector onto acoustic space so that to find 'nearest' song to the web page in the acoustic space. The feasibility of the idea is confirmed through preliminary experiments using song reviews and Web pages including the song title and artist name.
著者
河口 信夫 松原 茂樹 若松 佳広 梶田 将司 武田 一哉 板倉 文忠 稲垣 康善
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.523, pp.61-66, 2000-12-15
被引用文献数
2

本稿では、名古屋大学音響情報研究拠点(CIAIR)で構築中の実走行車内音声対話コーパスの設計と特徴について述べる。道案内や店情報検索をタスクとする162対話を対象とした特徴分析の結果、(1)ドライバーの発話速度は通常の対話音声に比べて遅く、5〜7(mora/sec)である、(2)ドライバーの発話におけるフィラーの出現頻度は、1発話単位あたしり0.33個、1秒あたり0.174個であり、通常の人間対人間の自由対話に比べて少ない、(3)車両の走行中と停止中とでは、発話速度や話し言葉に特有な現象の出現に関して差がない、(4)停止中に比べ走行中の発話には、感動詞、及び、文発声途中でのポーズの出現頻度が高い、ことなどが明らかになった。
著者
西野 隆典 梶田 将司 武田 一哉 板倉 文忠
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.2, pp.91-99, 1999-02-01
被引用文献数
47

ヘッドホン受聴では, 頭部伝達関数(Head Related Transfer Function ; HRTF)を用いることにより, 立体音場を忠実に再生することができる。しかし, HRTFは方向に依存した関数であるため, HRTFを用いた聴覚バーチャルリアリティシステムでは, 測定した音源方向については忠実な立体音場が再生できるが, その他の音源方向については, 再生に必要なHRTFを新たに測定するか, すでに測定されたHRTFから推定して求める必要がある。しかし, HRTFの補間が可能であれば, 少数の測定HRTFから全方位のHRTFが作れるため, データ削減の有効な手段となるだけでなく, 滑らかな移動感を得ることができる。本論文では, (1)線形2点補間, (2)主成分分析を用いた補間の2手法を用いて, 水平面上のHRTFのインパルス応答と周波数振幅応答の補間可能性を, 客観基準と主観基準(移動感並びに方向定位感)により評価した。その結果, (1)水平面上のHRTFは45゜もしくはそれ以下の角度間隔で測定を行い, 未知のHRTFはそれらから補間可能であること, (2)線形2点補間は主成分分析による補間手法と比べて, より良い補間が可能なこと, (3)補間対象のインパルス応答と周波数振幅応答の間では, 補間精度の有意な差はなく, 位相は最小位相であっても良いことが明らかになった。