著者
李 晃伸 河原 達也 堂下 修司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.82, no.1, pp.1-9, 1999-01-25
被引用文献数
80

大語彙連続音声認識のための効率の良い段階的 (2パス) 探索手法を提案する. 中間表現として従来広く用いられているN-best表現の一種である単語グラフ形式は, 単語単位で決定的に区分化するためにコンテクストに依存したマッチング長の変動を表現できず, 直前単語ごとに仮説を多重化する単語対近似に伴う処理量の増大が著しい. これに対して単語トレリスインデックスという形式を提案する. 仮説を多重化せずに, 第1パスのトレリスでビーム内に残った単語終端ノードのゆう度と対応する始端をすべて保存することで, 単語境界の存在範囲のあいまい性を保持する. 第2パスではこれを逆引きすることで探索空間の絞込みを行い, またヒューリスティックスコアとして用いることで, 大語彙においても高精度かつ効率の良い探索を実現する. 5000語の毎日新聞記事読上げタスクで評価を行った結果, 単語グラフ形式に比べて高精度であることが確かめられた. 更に仮説を多重化しない1-best近似を用いることで, メモリ効率を10倍以上改善しながら従来手法とほぼ同等の認識精度が得られた. 単語間音素環境依存性を考慮した最終的な単語認識精度は91.4%を達成した.
著者
横井 謙太朗 河原 達也 堂下 修司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.449, pp.71-78, 1997-01-17
被引用文献数
9

ニュース音声データベースから特定の話題に関連したニュース音声を検索するシステムを実現するため、ニュース音声に話題情報を付与することを考える。新聞記事のテキストデータベースから話題を規定するキーワードを抽出し、それらの話題依存性の統計量を求める。認識器により抽出されたキーワードをもとにこの話題依存性の晴報を総合していくことで、文全体の話題を同定する。今回は、単一単語の話題依存性だけでなく単語共起のもつ話題依存性も利用する機構を提案する。これによってより誤りに強い話題同定が行なえることを、シミュレーションにより実験・評価する。
著者
長尾 真 中村 裕一 小川 英光 安西 祐一郎 豊田 順一 國井 利泰 今井 四郎 堂下 修司
出版者
京都大学
雑誌
重点領域研究
巻号頁・発行日
1994

感性情報は情報科学でこれまで取り扱ってきた情報に比べ、はるかに微妙なものであり、また主観的、多義的、状況依存的で曖昧なものである。従って、情報科学的なアプローチと心理学、認知科学的アプローチの両者の共同により、この微妙で曖昧な情報の客観的な記述と抽出、感性情報のモデリングの研究を行った。得られた成果は次のようである。多くの会合を持ち、討論を行なって、感性情報の概念を明らかにした。 (全研究分担者)変換構造説に基づいて感性的情報の認知機構を明らかにした。 (今井) 画像パターンの学習汎化能力に感性的情報がどのようにかかわるのかの学習モデルを作成した。 (小川) 官能検査法の感性の計測に利用する方法を明確化した。 (増山) 新しい人間の視覚現象を発見し、そのメカニズムの研究を行い、画像の認知における感性の働きを究明した。 (江島) 微妙な曲率をもった曲面の見え方の画像解析の研究を行い、三次元世界と二次元世界との対応について究明した。 (長尾、中村) 雑音の聞こえ方についての実験を行ない、人間の感性にかかわる概念との関係を明かにした。 (難波) 音声の微妙な特徴の抽出の研究を行ない、同様な概念との関係をを明かにした。 (河原) 人間の表情変化の計測をし、その位相情報を取り出し、人間の感情との関係を明かにした。 (国井) ロボットのセンサーフュージョンと自律性についての実験を行ない、感性的行動のできるロボットの基礎を与えた。 (安西) ソフトウェアの使い易さ、使いにくさを感性的立場から評価した。 (豊田) テキスト・リーディングにおける人間の眼球運動の観察を行ない、視覚の感性的側面が果たす役割、効果を明かにした。 (苧阪)
著者
壇辻 正剛 新保 仁 堂下 修司 梅崎 太造 大西 雅行 土岐 哲
出版者
京都大学
雑誌
基盤研究(B)
巻号頁・発行日
1996

日本語音声に対するIPA(the International Phonetic Alphabet,国際音声記号、国際音声表記、国際音声字母、国際音標文字)表記の基準作成を求めて、人文系と工学系の研究者が協力して研究を推進した。音声学的側面、音韻論的側面などの言語学的側面および日本語教育などの語学教育的側面、音声の音響分析、音声認識、音声合成などの音響工学、音声情報処理的側面など様々な方面からの研究を統合することによって、日本語音声の記述にIPAという一種のグローバルスタンダードを導入する基盤を確立した。分析対象の音声資料の収集に関しては、既存の音声データベースを活用するだけでなく、独自に音声データの録音、収集、編集を行なった。アンケート調査の結果、相違の著しかった音声を中心に、精緻な音響分析を施し研究の進展を図った。また、比較検討のため他の諸言語の音響分析も行った。主観的な判断に傾きがちであった聴覚印象に頼る音声転写に音響分析を積極的に活用して客観的な基準の作成に努め、定量的な比較や定性的な比較が可能になる新たな音響素性の導入を提案した。また、日本語教育や障害者教育など教育の現場にどのようにIPA表記の問題を活用していくのかを各側面より検討した。その成果の一部をコンピュータ支援型日本語教育システムの開発に導入することが可能になった。IPAのコンピュータ処理に関して、従来のIPAの数値コードの問題点を指摘すると共に、改善案としてより合理的な新たな数値コード化の導入を提案した。さらに、音声合成や音声認識など音声情報処理の分野にIPA表記の問題を導入し、日本語の合成音の記述、表記に関して基準を提供した。音声認識に関しては、特定言語にとらわれない記号系の利用としてIPAを利用する研究を進めるなど、各分野の研究の進展とIPAの応用に新しい側面から視点を与える研究を推進した。
著者
河原 達也 松本 真治 堂下 修司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.1, pp.1-8, 1994-01-25
被引用文献数
25

会話音声認識のための文脈自由(LR)パージングにおいて,単語対制約によるヒューリスティックを用いたA^*探索アルゴリズムを実現し,その評価を行った.本アルゴリズムは,全仮説に共通な単語対制約により求められる未探索部分の推定スコア(ヒューリスティック)を各仮説の評価値に加えながら,best-firstに探索を進めるものである.単語対制約は,計算量もそれほど大きくなく,A^*実行可能性条件を満たし,言語的にも強い制約であるので,優れたヒューリスティックとなる.種々の条件のビームサーチと比較した結果,本アルゴリズムは,最適解が得られることが保証され,認識精度が高く,またむだな仮説の展開が少なく,処理効率の点からも優れていることが示された.また,ビームサーチにおいても,このヒューリスティックを導入することが有効であると明らかになった.更に,A^*アルゴリズムの確率的文法への拡張も行い,その効果を確認した.