著者
河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.41, no.4, pp.436-439, 2000-04-15
被引用文献数
25

近年,音声認識システムの性能と実用化が著しく進展しており,今後さらにさまざまなアプリケーションへの展開が注目される.その際に最適な要素の選択やシステムの設計を行うためには,音声という信号やその情報処理に関する基本的な知識が必要不可欠である.本稿では,認識システムを構成する各要素に関して導入的な説明を行う.
著者
西田 豊明 河原 達也 黒橋 禎夫 中野 有紀子 角 康之 大本 義正 黄 宏軒
出版者
京都大学
雑誌
基盤研究(S)
巻号頁・発行日
2007

本研究の目的は,高度な会話エージェントシステム開発のためのさまざまなチャレンジが円滑にできるようにするための研究基盤と方法論を確立することである.研究成果は,会話エージェントシステム構築用プラットフォーム,コンポーネント技術,没入型WOZを用いた会話エージェントシステム開発環境,会話コーパスに基づく会話行動モデル開発方法論の開発,コンテンツ制作支援システム,評価手法の8項目から構成される包括的なものである。
著者
吉野 幸一郎 森 信介 河原 達也
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3386-3397, 2011-12-15

日々更新されるWebニュースなどのテキストに対して,述語項構造に着目した情報抽出を行い,それに基づいて情報検索・推薦を行う音声対話システムについて述べる.まず,ドメインごとに有用な述語項構造パターンの抽出を行う指標を検討し,Naive Bayes法に基づく抽出が有効であることを示した.また,抽出された述語項構造に完全に一致するものがない場合でも情報推薦ができるように,前述の指標に基づいて述語項の優先度を決定し,さらに,要素・用言に関して関連度を定義することによって述語項どうしの類似度を計算する.評価実験において,音声情報検索における典型的な従来手法であるBag-Of-Words(BOW)モデルと比較して,本手法がより的確に応答生成を行えることが示された.上記に加えて,ユーザからの情報要求・発話がなくなった場合に,対話履歴中の述語項との類似度を利用してプロアクティブに情報提示を行う手法を提案する.本研究で提案する対話システムの枠組みは,述語項構造という普遍的な情報構造と,コーパスから獲得される類似度を利用しているので,高いドメイン移植性を有している.
著者
林 忍 渋谷 慎太郎 大久保 博世 市野瀬 剛 下河原 達也 長島 敦 尾原 秀明 北川 雄光
出版者
特定非営利活動法人 日本血管外科学会
雑誌
日本血管外科学会雑誌 (ISSN:09186778)
巻号頁・発行日
vol.23, no.5, pp.831-835, 2014 (Released:2014-08-25)
参考文献数
6

要旨:【目的】下肢静脈瘤にはさまざまな愁訴があるが,そのなかでも浮腫を訴える患者は少なくなく,QOL 低下を招く一因となっている.浮腫を伴う下肢静脈瘤患者を対象とし,水分代謝調節作用を有する漢方薬である五苓散(ごれいさん)の臨床的有用性について検討した.【方法】自覚的に浮腫を伴う(CEAP 分類C3 以上)下肢静脈瘤患者22 例に対し,弾性ストッキングに併用して五苓散を12 週間投与した.五苓散投与前後で下肢周囲径(膝蓋骨上周囲径,下腿最大周囲径,外踝周囲径),自覚症状(浮腫,痛み,冷え,倦怠感,しびれ,瘙痒感,こむら返り)Visual Analogue Scale(VAS),静脈瘤重症度および臨床検査値(凝固系,炎症反応,一般,血圧)の評価を行った.【結果】五苓散投与後において下肢周囲径はいずれも有意に減少した.また,自覚症状VAS,静脈瘤重症度も有意な改善を認めた.各臨床検査値については変化を認めなかった.【結論】浮腫を伴う下肢静脈瘤の治療において,弾性ストッキングを併用し五苓散を投与することは浮腫を改善し, 患者の愁訴を軽減する可能性が示唆された.
著者
浜辺 良二 内元 清貴 河原 達也 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.143-148, 2006-12-21

講演のような話し言葉の書き起こしや音声認識結果を、講演録などのアーカイブとして二次利用する場合、文章として適した形態にする必要がある。本研究では、話し言葉の中で発言の引用が行われている箇所に引用符を自動付与する手法を提案する。機械学習により、まず引用構造をとる節を自動認定し、それらに引用符が必要かどうかを判定する。引用構造の認定では、表層表現や音響的特徴に加え、係り受け情報を利用することで認定精度の改善を図る。引用符付与の判定においては、学習の際に新聞記事コーパスから得られる情報をあわせて利用する。『日本語話し言葉コーパス(CSJ)』に対して、引用符付与の基準を定めた上で本手法の実験的評価を行なった。Transcriptions and speech recognition results of public speaking include many expressions peculiar to spoken language. Thus, it is necessary to transform them into document style for practical use of them. We focus on detecting quotations and enclosing them in quotation marks as written text. Quotations are detected with SVM-based text chunking method that considers information on morphemes, acoustic features, and dependency structures. Then, it is determined whether or not they need to be enclosed in quotation marks by machine learning method using the corpora of spoontaneous speech and newspapers. We defined how to classify quotations and evaluated our method on the Corpus of Spontaneous Japanese (CSJ).
著者
翠 輝久 河原 達也 正司哲朗 美濃導彦
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.12, pp.3602-3611, 2007-12-15

音声が主要なモダリティである環境において,自然言語で記述された文書を知識源として,インタラクティブにユーザに情報を提供する枠組みを提案する.これは,現在のオーディオガイダンスのように,システム側から一方的に情報を提示するのではなく,ユーザ・システム双方が対話の主導権をとりながら,インタラクティブに情報検索・提示するものである.そのために,ユーザ主導の検索・質問応答(pull)モードと,システム主導の提示(push)モードを用意して,ユーザの状態に応じてこれらを切り替える.検索・質問応答モードでは,漠然とした検索要求に対して文書を要約して提示したり,特定の情報・事実を求める質問に応答したりする機能を実装した.また,提示モードにおいては,システム側から,ユーザにとって有用な話題を動的に選択して,質問形式を用いて提示する方法を考えた.以上の枠組みを,顔認証機能を有するロボットエージェントに統合し,京都の観光案内システムとして,京都大学博物館の企画展示において運用を行った.3 カ月の運用期間中,のべ2 500人のユーザの利用があった.収集された対話を分析・評価した結果,提案手法がおおむね有効に機能していることを確認した.
著者
河原 達也 住吉 貴志 李晃伸 武田 一哉 三村正人 伊藤彰則 伊藤 克亘 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.100, pp.37-42, 2001-10-19
参考文献数
20
被引用文献数
24

連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.
著者
李 晃伸 河原 達也 武田 一哉 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.12, pp.2517-2525, 2000-12-25
被引用文献数
47

大語彙(い)連続音声認識のための新たなphonetic tied-mixture(PTM)モデルを提案する.このモデルは各音素モデル(monophone)の各状態がもつ64個のガウス分布集合をtriphoneの対応する状態に割り当て, 重みのみを変えて共有することで合成する.通常の状態共有triphoneに比べて音響空間を効率良く表現でき, また巨大なコードブックを要する従来のtied-mixtureモデルよりも学習が容易である.2万語の新聞記事読み上げタスクにおいて評価した結果, triphoneでの最大性能に近い7.0%の単語誤り率をより少ないパラメータ数で達成した.処理効率の点においては, 音響スコア計算に用いるガウス分布を上位3%にまで削減しても精度がほとんど低下しなかった.いくつかのガウス分布の足切り計算(Gaussian pruning)手法を提案及び比較した結果, 最終的に音響ゆう度計算を約5分の1にまで削減できた.
著者
勝丸徳浩 秋田 祐哉 森 信介 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.68, pp.25-30, 2008-07-11
被引用文献数
5

我々は,大学の講義におけるノートテイク支援を目標とした音声認識システムの研究開発を行っている.本研究では,専門性の高い講義に対して,言語モデルを効率的に適応する方法を検討する.大学の講義では,同一の講師が同一科目を一定期間担当することが通例であるので,以前の講義のデータを活用することを考える.ノートテイクが音声認識結果を評価・選別する応用場面を想定して,認識結果を教師ありで言語モデル適応に用いる方法と,音声認識結果の信頼度に基づいて教師なしで適応する方法を検討する.さらに,講義スライドを用いて, PLSA や Web テキスト収集に基づいて適応する手法との統合も行い,効果を確認した.We are developing an automatic speech recognition (ASR) system to assist note-taking in the classroom. In this work, we focus on an efficient method to adapt the language model (LM) for ASR to university lectures, in which a number of technical terms are used. We assume that one lecturer teaches a specific course subject through a certain period (a semester), and exploit the data of the lectures previously given by the same lecturer. Specifically, we propose an LM adaptation scheme supervised by the note-takers, who verify the ASR results and filter the well-recognized hypotheses. We also investigate an unsupervised adaptation method based on the confidence score of ASR. The methods are combined with other LM adaptation methods based on PLSA and Web text collection using the lecture slides.
著者
ゴメス・ランディ 河原 達也
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.5, pp.1-6, 2010-07-15

本稿では、音声認識のためのウエーブレットに基づく残響抑圧法について述べる。残響抑圧は、遅い残響成分の影響を抑圧するように、ウエーブレット係数をウイナーゲインでフィルタリングすることで行なう。音響モデルの尤度に基づいてウエーブレットのパラメータを最適化することで、元音声と遅い残響成分をそれぞれ効果的に推定することができ、これにより、音声認識に適した残響抑圧のためのウイナーゲインを求めることができる。このウイナーゲイン自体も音響モデルの尤度を用いて調整することで、さらに残響抑圧が改善される。残響のある実データを用いた評価実験により、有意な音声認識精度の改善を得ることができた。This paper presents an improved wavelet-based dereverberation method for automatic speech recognition (ASR). Dereverberation is based on filtering reverberant wavelet coefficients with the Wiener gains to suppress the effect of the late reflections. Optimization of the wavelet parameters using acoustic model enables the system to estimate the clean speech and late reflections effectively. This results to a better estimate of the Wiener gains for dereverberation in the ASR application. Additional tuning of the parameters of the Wiener gain in relation with the acoustic model further improves the dereverberation process for ASR. In the experiment with real reverberant data, we have achieved a significant improvement in ASR accuracy.
著者
ゴメス ランディ 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.10, pp.19-24, 2009-01-30

残響下での音声認識は非常に困難なタスクである。従来の残響抑圧手法の大半が、音声認識器とは独立に音声波形を修復するものであった。これに対して本研究では、音声認識に用いる音響モデルの尤度が大きくなるように、残響抑圧のパラメータを最適化するアプローチを提案し 、これをスペクトルサブトラクションに基づく方法に適用する。本手法により、残響抑圧と音響モデルの学習を統合して行うことができる。さらに音声認識(デコーディング)時にも、テストデータに対して残響抑圧パラメータの最適化を行う。大語彙連続音声認識による評価実験の結果、提案手法が従来手法に比べて、認識性能を有意に改善することを確認した。Speech recognition under reverberant condition is a difficult task. Most dereverberation techniques used to address this problem enhance the reverberant waveform independent to that of the speech recognizer. In this paper, we expanded and improved the conventional Spectral Subtraction-based (SS) dereverberation technique. In our proposed approach, the multi-band SS parameters are optimized to improve the recognition performance. Moreover, the system is capable of adaptively fine-tuning these parameters in the acoustic modeling phase. Experimental results show that the proposed method significantly improves the recognition performance over the conventional approach.
著者
河原 達也 GOMEZ Randy GOMEZ R.B.
出版者
京都大学
雑誌
特別研究員奨励費
巻号頁・発行日
2010

音声は人間同士のコミュニケーションにおいて最も自然なメディアであり、計算機やロボットとのインタラクションにおいても音声対話は重要な役割を果たすと考えられる。しかしながら、実際の環境において、計算機やロボットから一定(数メートル)以上離れた状況で発話がなされると、残響等の影響が顕著となる。その結果、音声認識や発話の理解の性能が大きく低下し、円滑な対話も困難になる。従来この問題に対して、音声強調・残響抑圧の研究が行われてきたが、人間の聴感上の改善を主な目標としていたため、必ずしも音声認識やインタラクションの性能改善につながるとは限らないものであった。これに対して、音声認識やインタラクションの改善に直接的に貢献するように音声強調を行う方法について研究を行った。今年度は特に、複数の分解能からなるウエーブレット分析の手法を研究した。提案するウエーブレットパケット分解では、遅い残響成分と音声の成分を効果的に分離するように、各々の分解能を設定する。これにより、各々に適切なウエーブレット基底を用いることで、観測された残響のある信号から効果的なウイナーゲインを計算することができる。残響抑圧は、ウエーブレットパケットの係数をウイナーゲインでフィルタすることで行われる、大語彙連続音声認識(JNASタスク)の評価実験において、提案手法はウエーブレット分析に基づく従来法や他の残響抑圧手法と比べて、高い性能を示した。
著者
イアン レーン 河原 達也 松井 知子 中村 哲
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.29-34, 2003-12-12

音声言語システムにおいては,バックエンドシステムが受理できない発話(ドメイン外発話)への対処が問題となる.本稿では,このようなドメイン外発話の検出法の枠組みを新たに提案する.本手法は,複数トピックの分類の信頼度を用いて,ドメイン内検証モデルをGPD(Generalized Probabilistic Descent)により学習する。この学習は,ドメイン内データの削除補間に基づいて行うため,ドメイン外の実データを必要とせず,移植性が高い.トピック分類手法として3つの手法(単語N-gram,LSA,SVM)を比較した結果,SVMが最も高い識別能力を得た.ドメイン外検出タスクにおいて,提案手法は,トピック分類結果の単純な組合せによるベースライン法と比較して,6.5ポイントも検出誤り率を改善した.さらに,実際のドメイン外データを用いて学習したシステムと比較しても,ドメイン外データを使用しない提案手法によりほぼ同等の性能が得られることがわかった.
著者
河原 達也 松本 真治 堂下 修司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.1, pp.1-8, 1994-01-25
被引用文献数
25

会話音声認識のための文脈自由(LR)パージングにおいて,単語対制約によるヒューリスティックを用いたA^*探索アルゴリズムを実現し,その評価を行った.本アルゴリズムは,全仮説に共通な単語対制約により求められる未探索部分の推定スコア(ヒューリスティック)を各仮説の評価値に加えながら,best-firstに探索を進めるものである.単語対制約は,計算量もそれほど大きくなく,A^*実行可能性条件を満たし,言語的にも強い制約であるので,優れたヒューリスティックとなる.種々の条件のビームサーチと比較した結果,本アルゴリズムは,最適解が得られることが保証され,認識精度が高く,またむだな仮説の展開が少なく,処理効率の点からも優れていることが示された.また,ビームサーチにおいても,このヒューリスティックを導入することが有効であると明らかになった.更に,A^*アルゴリズムの確率的文法への拡張も行い,その効果を確認した.
著者
翠 輝久 駒谷 和範 清田 陽司 河原 達也
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.3, pp.499-508, 2005-03-01
被引用文献数
11

テキストで記述された知識ベースを自然言語音声で検索するシステムのための効率的な確認手法を提案する.音声対話システムにおいては, 音声認識誤りや話し言葉特有の冗長性に対処する必要がある.構造化されたデータベースを検索するタスクではユーザ発話中のキーワードに着目した確認を行うことでこれらの問題に対処できるが, 一般的な文書を検索する際にはキーワードの明示的な定義ができないため, このようなアプローチを用いることは難しい.そこで本研究では, 文書情報検索における有用性の観点から, 音声認識結果中の確認を行うべき個所を同定するために, 検索整合度, 検索重要度の二つの統計的指標を導入する.これらの尺度を用いて, 検索に決定的な影響を与える個所は検索を実行する前に確認し, 結果として検索に影響を及ぼす個所は検索結果の違いに基づいて確認を行う戦略を提案する.この対話戦略をソフトウェアサポートを行うシステム「ダイアログナビ」のフロントエンドとして実装した.評価実験の結果, 単純に音声認識結果を用いる場合より検索成功率が向上し, また音声認識の信頼度を用いる確認戦略よりも効率的に確認が行うことができた.
著者
秋田 祐哉 三村 正人 河原 達也
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.9, pp.1736-1744, 2010-09-01

我々は国会審議の会議録作成支援を想定した音声認識システムの研究開発に取り組んでいる.会議録では原則として発話をすべて書き起こして記録することから,音声認識を活用する際には高い認識精度が求められる.このため,本研究では衆議院の審議音声からなるコーパスの整備を進めるとともに,これを用いた高精度の音響モデル・言語モデル・発音辞書の検討を行ってきた.音響モデルについては,種々の正規化手法に加えて最小音素誤り(MPE)学習を導入した.また言語モデルと発音辞書に関しては,話し言葉音声向けのモデルを生成するために発話スタイルの統計的変換手法を適用し,4-gram統計言語モデルと発音の変異形を含む辞書を構築した.これらのモデルに基づく音声認識システムについて実際の審議音声における評価を行ったところ,それぞれの手法が有効に機能していることが確認され,最終的には86%の文字正解精度が得られた.
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。