著者
白井 洋輔 柳村 舞衣 篠崎 隆宏 堀内 靖雄 黒岩 眞吾 遠藤 俊樹 宇都宮 栄二
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.112, no.475, pp.245-250, 2013-03-11

リアルタイム映像配信における字幕提示において,字幕情報の遅延や欠落は大きな問題である.この問題に対し,音声と字幕の同期と字幕の要約が有効であると考えられるが,一般的な映像での検証はほとんどなされていない.そこで本研究では(1)字幕提示のタイミングを変化させた場合の了解度実験(2)音声に忠実な字幕文(全文字幕)と音声を要約した字幕文(要約字幕)での了解度実験と主観評価実験を行った.結果として字幕提示のタイミングは音声と同期させた場合の了解度が最も高くなった.全文字幕と要約字幕では了解度において有意差は見られなかったが,ろう者に対しては要約字幕の方が了解度が高い傾向が示された.また,主観評価では要約字幕の評価が高くなり,字幕を要約することの有効性が示された.
著者
加藤 恒夫 河井 恒 宇都宮 栄二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.107, pp.39-44, 2006-10-20
被引用文献数
2

携帯電話アプリケーションの日本語入力を支援するため、2006年1月よりコンシューマ向けに分散型音声認識のサービスを開始した。携帯電話マイクに入力された音声は携帯電話機上で音響特徴量に変換され、パケット通信で音声認識サーバに送信される。携帯電話が音声認識サーバから受信した認識結果は画面表示されるため、ユーザは瞬時に認識結果を確認し、認識を誤った場合にも誤認識箇所を部分的に修正することができる。音声認識に対するストレスや不安を軽減するため、携帯電話機上の特徴量抽出処理をリアルタイム化し応答時間を数秒に短縮するとともに、誤認識の可能性が高い場合に「声が大きすぎます」、「雑音が大きすぎます」、「発声が早すぎます」と3種類のアラームを発生する機能を追加した。また、ネットワークのコンテンツに日々追加される新しいキーワードを認識できるようにするため、サービスを停止せずに単語辞書・文法を更新する機能を開発した。To assist Japanese text input for applications on cellphones, a distributed speech recognition service for consumer applications was launched in January 2006. Speech input to a microphone is processed for acoustic feature extraction on the cellphone, then the features are transmitted to a speech recognition server by packet exchange, and recognition results received from the server are displayed on the screen. The recognition results are confirmed by sight, and partial correction of misrecognized words is possible if any. To reduce stress and unfamiliarity to speech recognition technology, response time from the server was shorten to a few seconds by real-time acoustic feature extraction on the cellphones, and warning function of three alarms, "Voice too loud ", "Noise too loud", and "Uttered too early", were added to the client software. Moreover, a function of reloading new grammars and lexicons through a nonstop operation is equipped on the speech recognition server to enable frequent update of grammars and lexicons for network contents.