著者
嶋 和明 本間 健 池下 林太郎 小窪 浩明 大淵 康成 佘 錦華
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J101-D, no.2, pp.446-455, 2018-02-01

電子機器の音声入力操作が一般的になった.音声入力操作に必要となる言語理解器開発のためのコーパスは,主にWOZで収集されてきた.WOZは,人が機械に話すときに見られる簡潔な発話スタイルの収集に向く.しかし,ユーザは,言語理解に優れる機械と対話するなかで,多様な発話をするように変化すると予測される.本研究は,機械相手の簡潔な発話だけでなく将来起こりうる多様な発話も収集することを目的とし,インタビューによるコーパス収集法を提案する.具体的には,カーナビをターゲットとして,質問者から回答者にカーナビに何と言うか質問し,回答を得る.回答者には,機械向けの発話収集であり,かつ機械は進化しているため発話の制限がないことを教示する.インタビューで得たコーパスと現製品の発話ログデータ(製品ログ)を比較したところ,コーパスが一発話あたり11.7%多く形態素を含み,多様な発話を収集できたことを確認した.また,現製品の言語理解用データとしての有用性を調べるため,コーパス,製品ログ,両者混合の3パターンで学習させた言語理解器を構築し,評価した結果,両者混合学習で最高精度となり,有用性を確認した.
著者
神田直之 武田龍 大淵康成
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013-SLP-97, no.8, pp.1-6, 2013-07-18

本稿では Deep Neural Network (DNN) を用いた日本語音声認識に関する検討結果を述べる.DNN とは多数の階層を持った人工ニューラルネットワークモデルである.近年,多層のネットワークでも効率的に最適化できる手法が発表され,各種の認識タスクで従来法を上回る性能を示したことから,再び大きな注目を集めている.音声認識分野においても DNN に基づく音響モデルに関して既に多数の研究が行われ改善が進む一方で,日本語のテストデータを用いた検討結果は限られた学習データを用いた小規模な実験に限られていた.本稿では日本語話し言葉コーパス (CSJ) をテストセットとし DNN に基づく音響モデルに関する各種の評価を行った結果について述べる.特に 270 時間の学習データを用いた評価において,音素誤り最小化 (MPE) 学習された Gaussian Mixture Model に基づく音響モデルと比較して最大 28.2 %の認識誤りが削減され,DNN の認識性能の高さを日本語においても確認した.また DNN に基づく音響モデルにおいて,学習用の言語リソースが限られた状況でデータを擬似的に増加させる手法について新たに検討を行い,認識精度がさらに向上することを確認した.
著者
福永 大輝 越智 景子 大淵 康成
出版者
芸術科学会
雑誌
芸術科学会論文誌 (ISSN:13472267)
巻号頁・発行日
vol.18, no.1, pp.10-18, 2019-03-15 (Released:2023-05-02)
参考文献数
14

「リズムアクションゲーム」というジャンルに分類されるゲームにおいては、プレイヤーの操作に応じたサウンドが再生されることで楽曲演奏を体験できることに重点を置いたものが多く存在する。本稿では、このリズムアクションゲームを対象に、ゲームデータの自動生成を目的に「キー音」の自動推定を行った。「キー音」とはプレイヤーの操作に応じて発音されるサウンドのうち、もともと楽曲中に含まれる音を切り出したものである。ある発音時点に存在するサウンドがキー音となるか否かについて、音響的特徴とサウンドが再生される時系列情報を使用して機械学習による推定を行った。その結果、同じ楽曲のみから学習を行う場合では90%程度、他の楽曲とデータを混合して学習を行う場合であっても60%以上の精度を得られることがわかった。キー音の音響的特徴、またサウンドの再生時系列についての分析結果は、今後リズムアクションゲームのゲームデータの自動生成を目指すにあたり、大きな基盤になると考えられる。
著者
横田 渉 大淵 康成
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会技術報告 41.12 映像表現&コンピュータグラフィックス (ISSN:13426893)
巻号頁・発行日
pp.261-264, 2021 (Released:2021-07-07)
参考文献数
4

不可視部情報の判別を行う方法として、打音検査に代表されるような、音響信号を用いる方法が存在する。そのような音響分類の例として、本論文では硬貨の落下音の分類を扱う。従来の硬貨判別の研究では、単一の特徴量を人間が分析を行っていた。この分析方法では複数の特徴量を正確に分析することは難しいと思われる。大量の特徴量を正確に分析することが必要だと考える。音響信号を用いた分析に機械学習を組み合わせることで大量の特徴量を使用した分析をより正確に行うことが出来ると思われる。そのため、日常生活において使用されている五円硬貨と十円硬貨を様々な素材に落下させた際の音に対して機械学習を用いて分析を行った。
著者
福永 大輝 大淵 康成
出版者
一般社団法人 画像電子学会
雑誌
画像電子学会研究会講演予稿 画像電子学会第285回研究会講演予稿
巻号頁・発行日
pp.172-175, 2018 (Released:2020-07-01)

本研究では、「リズムアクションゲーム」というジャンルに分類されるゲームにおいて、ゲームデータの自動生成を目的に「キー音」の自動推定を行った。「キー音」とはプレイヤーの操作に応じて発音されるサウンドのうち、もともと楽曲中に含まれる音を切り出したものである。個々のサウンドがキー音となるかどうかについて、音響的特徴とサウンドが再生される時系列情報を使用して機械学習による推定を行った結果、条件によっては 90%以上の精度が得られることを確認した。
著者
大淵 康成
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.5, pp.821-832, 2005-05-01

複数のマイクを使った音声認識において, 個々のマイクへの入力の品質が大きくばらついていることがある.そのような場合, それらの入力を重ね合わせることより, 最適なマイクを正しく選ぶことが重要である.本研究では, 同一発声に対する複数チャネルの音声データをもとに, 音声認識に最も適したチャネルを選択する手法として, デコーダに基づくチャネル選択(Decoder-based Channel Selection: DBCS)を提案する.各チャネルの評価には, 従来用いられていた信号対雑音比や音声認識ゆう度などに代わり, デルタケプストラム正規化方式による特徴補償前後の認識仮説の比較に基づく手法を導入する.また, この手法を様々なマイクの組合せからなる部分遅延和アレーと組み合わせることにより, 更に性能向上が得られることを示す.評価実験の結果, デルタケプストラム正規化, チャネル選択, 部分遅延和アレー利用の三つの方式が相補的に働き, 全体として従来の遅延和アレー方式に比べると, 二つの評価データセットに対してそれぞれ35.8%/26.8%の誤り削減率が得られた.