著者
新田 克己 長谷川 修 秋葉 友良 神嶌 敏弘 栗田 多喜夫 速水 悟 伊藤 克亘 石塚 満 土肥 浩 奥村 学
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.80, no.8, pp.2081-2087, 1997-08-25
被引用文献数
17

論争支援マルチモーダル実験システムMrBengoは, 法廷における論争をシミュレートする知識ペースシステムに, 顔認識, 表情合成, 音声認識, 音声合成, WWWブラウザなどのモジュールを結合したマルチモーダル実験システムである. このシステムは, 原告(検察官), 被告側弁護士, 裁判官という仮想的な三つのエージェントからなっている. ユーザは被告側弁護士に音声で指示を出して, 検察官と法廷論争を行い, 論争が終了すると裁判官が判決を下す. 論争の状況に応じて, エージェントの表情が変化するので, ユーザはそれを見ながら論争の戦略をたてることができる.
著者
長谷川 修 坂上 勝彦 速水 悟
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.82, no.10, pp.1666-1674, 1999-10-25
被引用文献数
9

本研究では,システムのモニタ上に人の上半身の姿を有する3次元コンピュータグラフィックス像(人間型ソフトウェアロボット:以下ロボット)を表示し,これに視覚や聴覚を用いた対話機能や,表情や視線,指さしジェスチャの細やかな制御機能を与え,実空間を対象とした人と計算機の円滑なインタラクションを図る.試作したロボットは,あらかじめ登録(学習)した実空間中(オフィス内)の人物や物体を視覚的に探索・捕そくし,それらの発見位置/時刻を履歴として管理するとともに,その3次元的な位置を発話と視線/指さしジェスチャで人間に示すことができる.またこのロボットは,新たな対象物の登録を対話的に行えるほか,その人物の名前や物体の名称/所有者なども併せて登録でき,こうした機能を活用して室内の状況に関して人間(ユーザ)と簡単な対話を行う(タスクをこなす)ことが可能である.
著者
赤穂 昭太郎 速水 悟 長谷川 修 吉村 隆 麻生 英樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. A, 基礎・境界 (ISSN:09135707)
巻号頁・発行日
vol.80, no.9, pp.1546-1553, 1997-09-25
被引用文献数
28

画像や音声といった複数の情報源をもつマルチモーダルなシステムがそれらの情報を統合して概念を学習するための枠組みについて考察する. 画像に対する複数の属性のうちの一つを音声で教えて, 属性の種類と分類を自動的に獲得する. これを隠れ変数を含む統計的な学習法であるEM法を用いて行う. 特徴抽出レベルでは, YIQ画像に対する多重解像度相関特徴を提案し, 概念獲得のために必要な特徴を抽出するための正準相関分析を行い, 最終段でEM法を用いた多値回帰による概念獲得を行うモデルを提案し, 実際の画像と音声を用いた学習実験の結果を紹介する.
著者
後藤 真孝 伊藤 克亘 速水 悟
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2330-2340, 2000-11-25
被引用文献数
29

本論文では, 代表的ないいよどみ現象である有声休止(音節の引き延ばしも含む)を自動的に検出する手法を提案する.有声休止は音声対話において発語権の保持等の大切な役割を果たしており, その検出は音声対話システムを実現する上で重要である.従来, サブワード単位に基づく連続音声認識やワードスポッティングの枠組みで有声休止に対処する研究事例はあったが, いいよどみ現象として個々に検出しておらず, その役割を把握して適切に扱うことはできなかった.本手法は, 有声休止中は調音器官の変化が小さいことに着目し, 音韻的に変化が少ない持続した有声音(有声休止音)を検出する.その際, ボトムアップな信号処理によって, 有声休止音がもつ二つの音響的特徴(基本周波数の変動が小さくスペクトル包絡の変形が小さい)を検出することで, トップダウン情報を使わない言語非依存な検出を可能とする.本手法をリアルタイムに実行するシステムを実装し, 有声休止箇所のマーク付け作業を施した日本語の音声対話コーパスを用意して, 評価実験を行った.その結果, 30名の話者の自然発話に対し, F値0.726の精度で有声休止を検出できることが確認された.
著者
朝日 翔太 松井 彩華 田村 哲嗣 速水 悟 井指 諒亮 古川 輝 内藤 孝昌
出版者
一般社団法人 日本機械学会
雑誌
日本機械学会論文集 (ISSN:21879761)
巻号頁・発行日
pp.20-00020, (Released:2020-10-20)
参考文献数
15
被引用文献数
1

In this paper, we propose a method to predict the failure of factory equipment by machine learning architectures using vibration data. We design the model so that we can predict robustly the failure of the equipment in advance. We use a Gaussian Mixture Model (GMM), a machine learning architecture, to calculate abnormality value which is used for the decision whether the state of the equipment is normal or abnormal by thresholding. We also use Long Short-Term Memory Autoencoder (LSTM-AE), one of the structures of the deep learning algorithm, for feature extraction. LSTM-AE model learns both spatial and temporal patterns which are difficult to capture with conventional machine learning algorithms. We conducted the prediction experiment using vibration data obtained from actual mechanical equipment, to confirm our method can predict the failure more robust than conventional methods. From this experiment, we found that the abnormality value tended to exceed a threshold value before the actual failure, indicating that the failure can be predicted in advance by our method. Besides, when compared with conventional methods, we found that the transition of abnormality and the accuracy of failure prediction were almost the same in all cases, but we also showed that the proposed method has superiority on robustness compared to conventional methods about the transition of abnormality and the setting of the threshold.
著者
中村 明 速水 悟 津田 裕亮 松本 忠博 池田 尚志
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.4, pp.1375-1389, 2009-04-15

単語間の大域的な依存関係をトピック(話題)としてモデル化する言語モデルの1つであるLDA(Latent Dirichlet Allocation)を複数個統合する方式によって,言語モデルを高精度化・安定化できることを示す.新聞記事コーパスを用いた実験の結果,提案方式では単一のLDAからなる同一規模のモデルと比較して,つねに推定精度が向上・安定化することを確認した.単一LDAでは潜在トピック数<i>C</i> = 100前後を境に性能が低下するのに対し,提案方式では過適応が抑制され,はるかに大きい総トピック数(= 各モデルの潜在トピック数の総和)まで性能が向上し続ける.また提案方式によるunigram確率を用いて<i>N</i>-gram確率(<i>N</i>&ge;2)を補間することにより,trigramのパープレキシティを従来方式より大幅に削減できる.さらに本論文では,提案方式を予測入力に基づくテキスト入力支援(predictive text entry)に応用することを想定し,テキスト入力支援に適した言語モデル評価指標i-PPを提案する.この指標はパープレキシティの拡張であり,任意文字数の読み入力時点における平均単語分岐数を表す.この指標を用いた評価の結果,提案手法では入力読み文字数<i>l</i> = 2の時点まで通常のパープレキシティと同程度にi-PPを削減でき,従来方式よりも高精度に予測候補を絞り込めることが確かめられた.