著者
松岡 達雄 ハッソン ロバート ダル ステファニー バーロウ マイケル 古井 貞煕
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2070-2077, 1996-12-25
参考文献数
24
被引用文献数
7

本論文では音声理解システムにおいて,音声認識結果である自然言語を,システムを駆動する意味言語に変換するための言語モデルを,コーパスから自動的に獲得する方法について述べる.提案法では,まず,自然言語/意味言語における単語を,出現する文脈の類似度を尺度とした統計的なクラスタリングによりグループ化する.次に,自然言語,意味言語をそれぞれネットワーク文法で表現し,自然言語の文法ネットワーク中の状態遷移と対応する意味言語の文法ネットワーク中の状態遷移間の共起確率を,自然言語と意味言語が1対となったコーパスを用いて推定する.この共起確率を翻訳言語モデルとして自然言語から意味言語への変換を行う.単語のクラスタリングによりネットワーク中の状態数が削減されているため,スパースデータからの推定の問題を回避し,頑健な翻訳言語モデルを推定することができる.米国ARPAの音声理解評価タスクである航空旅行情報システム(Air Travel Information System: ATIS)を対象として評価を行い,提案法の有効性を示す.
著者
サルワシュ マーテー 古井 貞煕
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.102, no.527, pp.141-146, 2002-12-12

本論文では、形態素単位による音声認識における音韻論と形態構文論のモデル化への新しいアプローチについて述べる。提案法は、我々が構築しているハンガリー語の大語彙連続音声認識(LVCSR)システムによって評価されている。タスクは、主要日刊新聞を流暢に読み上げた文音声の認識である。接辞や複合語のために膨大な数になる単語形を十分にカバーするために、形態素に基づく語彙単位をシステムに用いている。基本的な発音モデルと形態素Nグラムに対して、新しい音韻論モデルと新しい統計的形態構文言語モデル(SMLM)を評価した。柔軟性の高いトランスジューサに基づくシステム構成のおかげで、これらの新しい要素は、デコーダ自体を変更することなく、基本的なモジュールと親和性よく統合されている。ベースラインシステムに比較して、提案した音韻論モデルにより誤り率が8.32ルにより誤り率が17.9%低下した。1350形態素のハンガリー語ディクテーションタスクで、最良の構成で14.75%の形態素誤り率が得られている。
著者
菊池 智紀 古井 貞煕 堀 智織
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2002, no.121(2002-SLP-044), pp.225-230, 2002-12-16

本稿では,これまで我々が提案してきた単語抽出による要約手法の前処理として,重要文抽出を組み合わせた2段階の音声自動要約手法を提案する.本手法では音声認識の結果から,各文の構成単語の重要度,信頼度,言語的自然さの評価値から重要文抽出の要約スコアを求め,それをもとに認識率の低い文,理解困難な文をあらかじめ除いておく.次に,残された文に対して,同様の評価値に単語間遷移スコアを加えた要約スコアを最大にするような,部分単位列を抽出するという手法により要約文を作成し,高精度化をはかる.この手法を用いて講演音声を自動要約し,複数の被験者により作成された正解要約文単語ネットワークに基づく評価を行う.重要文抽出法を用いない従来までの要約手法との要約精度の比較を行った結果,提案手法の有効性が確認された.
著者
大西 翼 ディクソン ポール 古井 貞煕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.103, pp.1-6, 2007-10-19
被引用文献数
7

本稿では、実用的な音声認識デコーダの実現に向けて東京工業大学で開発が行われている、WFST を利用した音声認識デコーダについて、概要とその性能について述べる。本デコーダでは、スケーラビリティを向上させるために、省メモリ化として on-the-fly 合成と disk-based search、高速化として、GPU を利用した音響尤度計算の実装が行われている。この他にも、実用化に向けた様々な機能が実装されている。これらについての詳細を述べる。また、WFST 音声認識で問題となるメモリ消費量の増大を解決するために、本デコーダで行われている省メモリ化について、CSJ を利用して性能評価を行った。その結果、on-the-fly 合成を行うことで最大で 60%以上のメモリ消費量の削減をまた disk-based search を行うことで最大で 60%以上のメモリ消費量の削減を確認した。さらに、これらのアプローチを組み合わせることで、すべての WFST を事前に合成した場合と比較して、80%程度のメモリ消費量の削減を確認した。これらの実験により、本デコーダの省メモリ化についてのアプローチの有効性を示した。This paper presents an overview of the Weighted Finite State Transducer (WFST) based speech decoder being developed at Tokyo Institute of Technology and illustrates the performance via evaluations on the Corpus of Spontaneous Japanese. The decoder has a rich feature set including on-the-fly composition, disk-based search and a new method for accelerating acoustic likelihood calculations using graphics hardware. To provide flexibility there is a highly configurable front-end, batch or live operating modes and lattice generation. Experiments were conducted to evaluate the memory consumption in various configurations. By using either on-the-fly composition or a disk-based search network a memory reduction of more than 60% was achieved. Furthermore, a combination of these techniques with additional factoring of the WFST reduced the memory consumption by over 80%.
著者
Huu Bach Nguyen 篠田 浩一 古井 貞煕
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.104, no.448, pp.13-18, 2004-11-12
被引用文献数
9

本論文では,野球放送からハイライトシーンを抽出することを目的として,ビデオデータをインデクシングするための統計的なフレームワークを提案する.マルチストリームの隠れマルコフモデルを用い,主成分分析による特徴量,フラクタル特徴量,差分特徴量の3つの特徴量間の重み最適化を行う.また,カメラショットの認識結果をシーン境界の検出に利用した.4.5時間の野球放送のダイジェストデータを用い,このフレームワークの有効性を確認した.8種類のシーンの認識率は76.8%となり,シーン境界検出のない単一ストリームHMMの場合に比べ,11.6ポイントの改善を得た.
著者
井上 中順 斉藤 辰彦 篠田 浩一 古井 貞煕
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.12, pp.2633-2644, 2010-12-01

本研究では,映像の中から「飛行機」や「歌っている人」といった高次特徴を検出するタスクに対し,SIFT特徴とMFCC特徴の混合ガウス分布(GMM)を用いた統計的手法を提案する.検出手法には,話者認識などで用いられてきたゆう度比による検出と,GMM Supervector SVM (GS-SVM)による検出の二つを用いる.ゆう度比による検出では,高次特徴が出現する部分としない部分のGMMをそれぞれ学習し,二つのモデルから得られるゆう度の比をもとに高次特徴を検出する.GS-SVMでは,各ショットに対するGMMを求め,GMM間の距離から定義されるRBFカーネルを用いたSVMで学習・識別を行う.最後に,各手法から対数ゆう度比を求め,その重み付き和により手法の融合を行う.TRECVID2009のデータセットを用いて評価実験を行った結果,Mean Average PrecisionはSIFT特徴とGS-SVMを用いた場合の0.141から,融合手法により0.173まで向上した.
著者
松岡 達雄 大附 克年 森 岳至 古井 貞煕 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2125-2131, 1996-12-25
被引用文献数
39

近年,大語い連続音声認識の研究がアメリカ英語,イギリス英語,フランス語,ドイツ語,イタリア語などを対象に新聞記事を用いて盛んに行われている.しかしながら,日本語を対象とした,これに類する研究については報告がない.これは,主に,日本語が単語間にスペースなどのデリミタをおくことなく書かれるため,大語い連続音声認識において重要な役割を果たす単語N-gramなどの言語モデルの導入が容易でないためと考えられる.我々は,日本語新聞記事を対象として大語い連続音声認識の研究を進めている.単語N-gramを言語モデルとして用いるため,テキストを形態素解析することにより形態素(単語)にセグメンテーションした.形態素を単語と定義し,約5年分の新聞記事を用いて単語N-gram言語モデルを推定した.認識システムを評価するため,音声データベースを設計し,54名の話者の各100文ずつの音声データを収録した.この音声データベースの最初の10名の音声を用いて大語い連続音声認識の実験を行った.7 kの語いサイズに対して,no-grammar言語モデル,音素文脈独立音響モデルを用いた場合には単語誤り率が82.8%であった.単語bigram言語モデルと音素文脈依存音響モデルを用いることにより単語誤り率が20.0%に改善された.