文献一覧: 北岡教英 (著者)

2 0 0 0 OA 音声対話システムのための自由発話に対応した照応解析による入力発話への話題補完手法

著者: 西村良太森雷太太田健吾北岡教英
出版者: 一般社団法人人工知能学会
雑誌: 人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日: vol.37, no.3, pp.IDS-F_1-13, 2022-05-01 (Released:2022-05-01)
参考文献数: 30

In this study, we propose a method for generating response utterances which take into account contexts and topics of the dialog by complementing omitted words such as subjects in the input utterances of dialog systems. In order to complement omitted words in the input utterances, an automatic anaphora resolution based on the centering theory is performed. To achieve highly accurate anaphora resolution, we also performed spoken-to-written style conversion based on sequence-to-sequence model using LSTM as a preprocessing. The results of evaluation experiments using NUCC, the Nagoya University Conversation Corpus showed that our proposed complementation method works robustly against errors in spoken-to-written style conversion.

2022-05-13 16:08:29
2 + 3 Twitter

2 0 0 0 雑談音声の常時認識による楽曲提案システム(一般セッション,福祉と見守りのための画像・音声処理)

著者: 大橋宏正北岡教英原直武田一哉
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.110, no.219, pp.59-64, 2010-10-01

音声を連続音声認識システムにより常時認識することによって得られる認識単語列からその場の雰囲気に適切な音楽・楽曲を提案し,再生するシステムを構築した.楽曲を説明するテキストより構築された文書ベクトル空間と,楽曲の音響特徴量を表現する音響ベクトル空間の対応付けを利用することで,大語彙音声認識によって得られた音声認識単語列を音響ベクトル空間へとマッピングする.また,大語彙音声認識ではカバーできない固有名詞などのキーワードをワードスポッティングで認識する.本稿ではシステムの概要と基本的な性能評価の結果と実際の雑談音声への応用に向けた予備実験結果を示す.楽曲のレビューを読み上げた音声を認識した結果による楽曲検索結果と,レビューのテキストを用いた結果との比較により,テキストではMRR値1で検索できたものが,音声認識性能はWER70.55%,ワードスポッティング性能はF値31.58%でもMRR値0.83と比較的良い結果を得た.また,今後の雑談認識の応用の予備的実験を行い,雑談書き起こしからの例を示した.

https://ci.nii.ac.jp/naid/110008106620

2 0 0 0 自動車運転のマルチモーダル信号収録装置の開発(マルチモーダルシステム,<特集>システム開発論文)

著者: 尾崎晃草川高志西脇由博マルタルーカス宮島千代美西野隆典北岡教英伊藤克亘武田一哉
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日: vol.93, no.10, pp.2118-2128, 2010-10-01
被引用文献数: 3

人間の行動を真に理解するためには,行動を記録すると同時に心的状態を知る術も同時に記録する必要がある.更にこのようなデータが大量に必要となる.そのような研究のための第一歩として,自動車実走行環境における自動車挙動を含む運転操作信号,生体信号などのデータを同期測定・記録する機器を作成した.様々な運転環境の負荷を調査するため,平静の運転をはじめ,標識や看板などを見る,イヤホンを通じて英数字を聞いて発音する,携帯電話でナビゲータと会話をする,そしてコンピュータと音声対話を行う4種類のタスクを自動車走行中に実施している.運転行動を測定するため,アクセルペダル踏力,ブレーキペダル踏力,ステアリング操作角,走行位置,車速,加速度,車間距離を収録する.また生体信号を測定するため,心拍数,皮膚電位,発汗量のセンサを搭載している.運転手と交通状況は,四つのビデオカメラと全方位カメラによって動画として記録する.運転手とナビゲータの声は,携帯電話と車内に配置されたマイクロホンで計12チャネル録音する.これらのマルチモーダルデータは同期して収録できる,2008年末までに,357名の被験者を募集して実験走行を行った.走行環境,運転行動,発話内容などに応じて詳細なラベルを定義し,実験後に運転データへ手作業で付与した.更に,このデータベースを用いた研究例を挙げ,データベース活用による今後の人間行動理解の可能性を示した.

2016-08-03 14:01:00
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110007730870

1 0 0 0 フォトリアルCGエージェントとのマルチモーダル対話

著者: 北岡教英西村良太太田健吾
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.78, no.5, pp.257-264, 2022-05-01 (Released:2022-06-01)
参考文献数: 28

2022-06-04 19:52:39
1 + 8 Twitter

1 0 0 0 言語的・音響的コンテキストが講演音声の聴取および認識に及ぼす効果

著者: 北岡教英新宮将久中川聖一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日: vol.103, no.94, pp.43-48, 2003-05-30
参考文献数: 9
被引用文献数: 1

人間の音響的知覚能力と,局所的なコンテキストを教示して音声を聞かせることで音響モデルとN-gram言語モデルによる音声認識をシミュレーションし,実際の音声認識システムと比較して各モデルの能力について検討を行った.人間の知覚実験ではコンテキストが与えられない場合に短い単語の知覚が難しいが,前2単語程度のコンテキストで短い単語の聴取は改善される.これは,助詞などが多い短い単語のパープレキシティが,言語モデルを用いることで小さくなることに対応する.また,コンテキスト情報のみからの単語予測能力もパープレキシティと強い相関がある.一方,前後2単語のコンテキストを与えると予測能力はさらに向上するが,必ずしも聴取能力の向上につながらない.同様の認識を音声認識システムでも行った.ユニグラム言語モデルと音響モデルによる認識は,人間のコンテキストなしの聴取に遠く及ばないが,トライグラム言語モデルの予測能力は人間と同等以上である.一方で人間でさらに予測能力が向上するコンテキストを与えても知覚能力は向上しないことから単語予測能力の高い言語モデルが認識の向上につながることは考えにくい.すなわち,講演音声などの自由発話認識に対しては,トライグラムによる言語のモデル化は十分でありかつこれ以上の改善による認識率向上は難しい一方で,音響モデルはまだ大きく改善すべきであると考えられる.

2021-03-01 22:44:03
1 + 2 Twitter

https://ci.nii.ac.jp/naid/110003295844

1 0 0 0 OA 高齢者の音声知覚特性に基づいた音声の明瞭化加工法の研究

著者: 西村良太長尾拓海一万田郁仁北岡教英
出版者: 日本知能情報ファジィ学会
雑誌: 知能と情報 (ISSN:13477986)
巻号頁・発行日: vol.30, no.6, pp.840-845, 2018-12-15 (Released:2018-12-15)
参考文献数: 14

近年の超高齢社会において,高齢者の加齢に伴う聴覚機能の低下が問題視されている.聴覚機能が低下すると,会話によるコミュニケーションにも支障をきたす.近年は,音声対話システムを利用した高齢者サポートシステムなどの開発も行われているが,このようなシステムで用いられる合成音声は高齢者にとっては聞き取りにくいものである.そこで本研究では,まず高齢者に音声の聴取実験を行ってもらい,その結果から聴覚特性の分析を行った.聴取実験では,単語了解度試験を行い,音素単位(子音部,母音部)での識別率を求めた.その結果,摩擦音,破擦音,破裂音同士での異聴が多かった.この結果を受けて,我々は音声に対して高齢者の聴覚特性に基づいた子音強調加工を施し,高齢者にとって聞き取りやすい音声を作成することができるかを調査した.音声加工は,特に異聴が多かった /k/,/s/,/t/,/h/,/ky/,/sy/,/ch/ の音素に対して行った.具体的な加工法としては,子音部の振幅を原音声比400%で増幅させるものである.加工音声の評価実験では,単語了解度試験による聴取実験を行った被験者と同じ被験者に聴取実験を行ってもらい,得られた聞き取り結果の正答率の比較を行った.結果,いくつかの音素においては,音声を加工することで正答率が上昇した.

2020-07-15 11:05:36
1 + 0 Twitter

1 0 0 0 AURORA - 2J/AURORA - 3Jデータベースとその評価ベースライン

著者: 山本一公中村哲武田一哉黒岩眞吾北岡教英山田武志水町光徳西浦敬信藤本雅清
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日: vol.2003, no.75, pp.101-106, 2003-07-18
被引用文献数: 26 4

本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,雑音下音声認識評価用共通データベースAURORA-2Jと,その標準評価スクリプトによるベースライン評価結果について述べる.AURORA-2Jは,AURORAプロジェクトの AURORA-2データベースの日本語版として設計され,標準評価スクリプトも AURORA-2で配布されているスクリプトをベースとして開発されている.この共通評価フレームワークにより,各機関における雑音環境下音声認識手法の性能を容易に比較することが可能となり,雑音環境下音声認識手法の発展を促すことができると考えられる.また,自動車内における数字/コマンド発声データベースであるAURORA-3Jの開発進捗状況についても述べる.This paper introduces a common database, an evaluation framework, and its baseline recognition result for noisy speech recognition, AURORA-2J, as an outcome of IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. AURORA-2J is designed as Japanized version of the AURORA-2 database and the evaluation framework is based on the AURORA-2 baseline scripts. This common evaluation framework enables to compare various noisy speech recognition techniques on a common ground. We hope more development of noisy speech recognition techniques using this evaluation framework. We also describe about AURORA-3J, digits and speech command database in car environments.

2018-11-13 05:15:27
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002913821

1 0 0 0 自動車運転行動のマルチモーダル信号コーパス(マルチモーダル)

著者: 尾崎晃マルタルーカス西脇由博宮島千代美北岡教英武田一哉
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日: vol.108, no.312, pp.33-38, 2008-11-13
被引用文献数: 4

自動車の運転とそれに付随する音声対話を観測した,マルチメディア信号コーパスを構築している.広い範囲の人間の『行動』を,様々な視点から説明できるモデルの研究を推進することを究極の目的として,音声・映像により記録される自動車内外の状況に加え,動作,生理,心理といった運転者の状況,速度や車間距離といった自動車の状況を様々なセンサーにより計測している.さらに,米国,トルコ等との国際協調により,海外の2拠点ともほぼ同じ方法でデータ収集を行った.本稿では,コーパス構築の状況と収集されたデータについて概説するとともに,収集したマルチメディア信号を用いた研究の概要について報告する.

2017-04-17 00:15:19
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110007114264

1 0 0 0 スペクトルサブトラクションと時間方向スムージングを用いた雑音環境下音声認識

著者: 北岡教英赤堀一郎中川聖一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.83, no.2, pp.500-508, 2000-02-25
被引用文献数: 37

雑音環境下の音声認識の前処理として用いられる, パワースペクトル領域でのスペクトルサブトラクションでは, 音声と雑音の間の相関の影響で雑音除去が十分でないことが指摘されている.本論文では, 相関の影響を抑えるための方法として時間方向スムージングを提案する.これは, パワースペクトルの各成分ごとにスムージングを行うものであり, 統計的に相関の影響を小さく抑えることができる.更に, スムージングによる時間分解能の低下を防いでスムージングをより効果的に実現するために, 短い分析窓長で分析を行う方法を提案する.大語彙(い)単語認識実験により, 時間方向スムージング, 特に短い分析窓を用いた場合に有効であることを示す.また, 時間方向スムージングを用いたスペクトルサブトラクションに, 音響モデルを雑音付加音声で学習する雑音付加学習を併用した場合に, 更に認識率が向上することも示す.

2015-04-09 21:00:08
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110003183699

1 0 0 0 合唱における歌声の引き込みを利用した歌声<i>F</i><sub>0</sub>制御の検討

著者: 川岸基成川渕将太宮島千代美北岡教英武田一哉
出版者: 一般社団法人情報処理学会
雑誌: 研究報告音楽情報科学(MUS)
巻号頁・発行日: vol.2014, no.13, pp.1-6, 2014-02-16

合唱歌唱時に生じる歌声の "引き込み" を利用して歌唱の基本周波数 (F0) を目標とする音高に誘導制御することを試みる.我々はこれまで,他者の歌声を受聴しながら歌唱したときの歌声への影響を歌声の引き込みという観点から分析し,1 つの質点と 2 つのばねで構成されるばね質量系を用いて,歌声の F0 動特性をモデル化した.本稿では,合唱歌唱の F0 動特性を表現するばね質量モデルを利用して歌唱の F0 を制御する手法を提案する.本手法では,合唱歌唱のばね質量モデルに基づき各歌唱者の引き込みの特徴を分析し,引き込みを考慮した誘導音を合成,受聴させることにより,目標音高に近づくように F0 を制御する.評価実験では,目標音高を受聴しながら歌唱した歌声と誘導音高を受聴しながら歌唱した歌声を目標音高との RMSE で評価し,誘導音高を受聴することで被験者 8 人中 5 人の RMSE が減少するという結果を得た.

2014-10-07 22:29:52
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110009662741

1 0 0 0 楽曲間の類似判定における許容度の推定

著者: 川渕将太宮島千代美北岡教英武田一哉
雑誌: 研究報告音楽情報科学(MUS)
巻号頁・発行日: vol.2013, no.2, pp.1-6, 2013-03-08

楽曲検索に関して,楽曲の音響情報を用いて楽曲間の主観的類似度を推定する手法について検討する.本研究では,楽曲間の主観的類似度は楽曲間の音響的類似度と聴取者の個人性により決定されると考える.本研究はこのうち聴取者の個人性に焦点を当て,聴取者間にどのような差異があるかを明らかにし,主観的類似度推定のモデルに組み込むことを目的としている.聴取者の個人性に関する先行研究の結果より,楽曲が音響的にどの程度似ていたら似ていると感じるかに大きな個人差が存在することが示唆された.本稿ではこの「音響的にどの程度似ていたら似ていると感じるか」を聴取者の「許容度」と呼び,許容度を含んだ主観的類似判定のモデルを提案する.実験では,楽曲間類似度の主観評価データを用いて聴取者の許容度を推定すると共に,実用の場面においてこの許容度を少数の類似性評価の結果を用いて推定することが可能であるかを確認する.

2013-06-04 01:10:50
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110009551890

1 0 0 0 孤立単語認識と連続基本単語認識の併用に基づく組織名の音声入力インタフェース(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)

著者: 北岡教英押川洋徳中川聖一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日: vol.105, no.496, pp.31-36, 2005-12-15
被引用文献数: 3

本稿では, 高頻度単語と短い単語(基本単語)を併用した音声認識を用いた組織名入力インタフェースを提案する.これは, まず音声で組織名を入力し, 音声認識の結果得られた複数の単語・基本単語候補から, ペンタッチで選択, 入力するマルチモーダルインタフェースである.組織名といった語彙サイズが大きく, 常に新しい組織名が生み出されるため, すべてを登録することが難しく, また音声認識が難しいタスクに対し, 単語認識と連続基本単語認識を併用するもので, 認識対象のカバー率と認識性能, 入力効率の両方の向上を図った.そして, その認識結果から単語・基本単語系列候補, 基本単語候補をタッチパネルに表示し, ペンタッチにより簡単に選択して入力が可能な組織名入力インタフェースを考案した.この高頻度単語と基本単語を併用した音声認識をオフラインの認識実験により評価したところ, それぞれ単独での音声認識結果より良い結果が得られた.さらにこの認識結果に基づいてインタフェースを用いた場合の入力可能な割合をシミュレーションすると, 約92%で入力が可能となることが分かった.また, このインタフェースを実装してオンラインで被験者実験を行ったところ, 音声認識性能の低下で1回の発声では83.3%の入力可能率となったが, 2回まで音声入力を許すことで93.3%となった.

2012-10-27 09:30:03
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110003486911