著者
西光 雅弘 秋田 祐哉 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.69, pp.25-30, 2005-07-15

本稿では落語を対象に劇場内においてリアルタイムで字幕を付与する方法を検討する.落語は演目ごとに基本的なシナリオ(台本)が決まっており,同一演者・演目の音声データとその書き起こしの収集が可能であることから,これを用いて当該演目専用の音響モデルと言語モデルを構築する.特に,台本からの逸脱への頑健性を保持しながら,言語的制約を強力に反映させるために,言語モデルの単位として文節を採用する.実際の落語3演目を用いて認識実験を行ったところ,3演目平均で90%に近い単語認識精度を得た.Automatic real-time captioning of Rakugo using large vocabulary continuous speech recognition is addressed. Rakugo is a Japanese traditional monologue show of story telling performed by a professional Rakugo-ka. Rakugo-ka follows a script, but does not read out it like drama. For automatic captioning, we construct a dedicated language model from the script and an adapted acoustic model. In addition, we adopt the phrase (bunsetsu) unit for language modeling. At this moment, we achieved word accuracy close to 90%.
著者
恒川 俊克 山下 洋一 溝口 理一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.12, pp.61-68, 1998-02-05
参考文献数
13
被引用文献数
12

大量のニュース音声データベースからある特定の話題に関するニュースのみを検索しその情報を得るようにするにはニュース音声に対する話題インデキシングの技術が必要になると考えられる。そこで本研究ではニュース音声に対しキーワードスポッティングに基づいた話題のインデキシングを行う。まず話題との相互情報量、単語長を選出基準として、話題の同定に貢献する名詞3000単語をキーワードとして選出した。このキーワードの話題に関する条件付き確率を基にテキストベース上で記事ごとに話題同定の実験を行ったところ約76%の記事を正しく同定することができた。さらにニュース音声に対しスポッティングを行い、抽出されたキーワードの音韻スコアと条件付き確率を基にして話題ごとに「話題の確からしさ」の計算を行い、話題同定を行った。正しい話題が話題同定結果の上位3位以内に含まれていれば正解分類とした場合、約66.5%を正しく同定することができた。For retrieving news data related to a specific topic from a great amount of news data base, we need a technique of indexing speech data with topics. In this report, we try the topic identification for news speech based on keyword spotting. To begin with we selected three thousands of nouns as keywords which contribute to topic identification, based on criterion of mutual information and a length of word. This set of keywords identified correct topics of 76 percent of text article data from newspaper database, Further, we performed keyword spotting for TV news speech and identified a topic by computing possibilities of all topics based on phonetic scores of spotted words and topic probability of the words. Topic identification rate is 66.5 percent assuming that identification is correct if the correct topic is included in the first three places of the result of topic identification.
著者
神尾 広幸 雨宮 美香 内山 ありさ 松浦 博 新田 恒雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.120, pp.29-34, 1995-12-14

本稿では、マルチモーダルインタフェースの作成と評価を容易に行うツールMuse (ultimodal Userinterface?design Support Edito)について述べる。MuseではUI?objectを画面上に配遣することでUIの外観を設計し、UI?objectの機能・情報設定やリンクの設定を行うことで動作の設計を行う。Museでは、入力手段としてタッチパネルによるポインティング入力、音声入力、画面上に描かれた文字を認識する文字入力を、また出力手段として静止画とアニメーションの表示、録音音声の出力、規則合成の出力という、マルチモーダル入出力機能を備えている。Museでは、これらの機能すべでをGUIによって取り扱うことができる。This paper describes a Multimodal User-interface-design Support Editor (Muse) that reduces the designing and evaluating hours of multimodal user intarface. A developer can design a card's appearance by putting UI-objects on a screen, and construct scenarios by setting functions and/or messages and linking UI-objects to other UI-objects or screen. Muse equips multiple input channels of speech, pointing, and hand writing, as well as multiple output channels of picture, animation, audio, and text-to-speech. These multimodal functionalities can be implemented by using GUI on Muse.
著者
有本 泰子 河津 宏美 大野 澄雄 飯田 仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.133-138, 2008-02-09

音声に含まれる感情情報を自動認識することを目的に、オンラインゲーム中の自然な対話を収録し、感情音声のコーパスを構築した。感情の種類の分類としてプルチックの提案した感情立体モデルのうち、その一次的感情を取り上げ、収録した音声に付与した。また、収録した音声の高さ、長さ、強さ、声質に関わる11種の音響的特徴を抽出し、音響的特徴ごとに分散分析を行ない感情間の有意差を検証した。さらに、分散分析の結果に基づき、特定の感情と他の感情とを判別するための判別分析を行なった。その結果、驚きで79.12%、悲しみで70.11%と高い判別率が得られ、他の感情においてもほぼ60%以上の判別率となった。For a purpose of automatic emotion recognition by acoustic information, we recorded natural dialogues made by two or three online game players to construct an emotional speech corpus. Two evaluators categorized the recorded utterances in a certain emotion, which were defined with referenced to the eight primary emotion of Plutchik's three-dimensional circumplex model. Moreover, 11 acoustic features were extracted from the categorized utterances and analysis of variance(ANOVA) was conducted to verify significant differences between emotions. Based on the result of ANOVA, we conducted discriminant analysis to discriminate one emotion from the others. As a result, high correctness, 79.12% for surprise and 70.11% for sadness, were obtained and over 60% correctness were obtained for every emotions.
著者
赤嶺 政巳 籠嶋 岳彦 土谷 勝美
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.66, pp.91-96, 1997-07-18
参考文献数
10
被引用文献数
2

従来のLPC合成器は、声道パラメータの操作により声質の変更が比較的容易で合成素片辞書も比較的コンパクトにできるという利点がある反面、音質の点で問題があった。本報告では、自然音声のデータベースから代表素片辞書を自動的に学習することにより明瞭で肉声感豊かな音質を実現する男訣鴇鴎朗初浅器を提案する。Conventional LPC synthesizers have an advantage in flexibility of controlling speech spectrum and in memory size for synthesis units, but do not have a good speech quality. This paper proposes a new residue excited LPC synthesizer with a high speech quality and a new method for automatically generating speech synthesis units. The LPC synthesis filter and its excitation are derived from the synthesis units by LPC analysis.
著者
伊藤 昭 矢野 博之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.12, pp.1-8, 1998-02-05
被引用文献数
3

対話とは,即興性と創造性とを兼ね備えた本質的に創発的な活動である.我々は創発的な対話の性質を分析するため,協調作業時の対話の収録・分析を行ってきた.そこでは,共話といわれる対話者が共同して一つの話を作っていく現象がみられ,単純な質疑応答型の対話管理ではとらえられない側面を持っている.ここでは共話に焦点を当てることで,創発的対話のモデルを検討する.Dialogue is essentially an emergent activity endowed with both improvisation and creativity. In order to investigate emergent dialogues, we have collected and analysed dialogues made under cooperative tasks. In the collected dialogues, we found that kyowa phenomena - dialogue participants work together to make a sentence or story - were often observed. In the paper, we investigate the model of emergent dialogues focusing on this kyowa phenomena.
著者
山本 幹雄 貞光 九月 三品 拓也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.104, pp.29-34, 2003-10-17
参考文献数
10
被引用文献数
9

混合ディレクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布)、文脈/文書の確率モデルを検討する。本稿では、混合ディレクレ分布のパラメータおよび適応時に必要な事後分布の期待値推定方法をいくつか述べ、動的に適応する?textit{n}gram言語モデルを用いた実験で確率的LSAのベイズ的な発展モデルとの比較を示す。混合ディレクレ分布や混合Polya分布は他のベイズ的な文脈モデルに比べて単純なので、予測分布を閉じた式で導出可能である。これは、Latent Dirichlet Allocation (LDA)のような他のベイズ的なモデルがいずれも予測分布の推定に近似を必要とする点と比べて、大きな優位性といえる。実験では、混合ディレクレ分布を用いたモデルが低い混合数で比較モデルよりも低いパープレキシティを達成できることを示す。We investigate a generative context/text model using Dirichlet mixtures as a distribution for parameters of a multinominal distribution, whose compound distribution is Polya mixtures. In this paper, we describe some estimation methods for parameters of Dirichlet mixtures and a posterior distribution (adaptation), and show experiments to compare the proposed model with the other Bayesian variants of Probabilistic LSA in perplexity of adaptive \textit{n}gram language models. Since the Dirichlet and Polya mixtures are simpler than the other Baysian context models such as Latent Dirichlet Allocation (LDA), the posterior distribution can be derived as a closed form without approximations needed by LDA. In the experiments we show lower perplexity of Dirichlet mixtures than that of the other.
著者
諸岡 孟 西本 卓也 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.77-82, 2008-02-09

我々は,自動作編曲に向けた音楽の生成モデルの構築を目的とし,人間が和声学を習得して作曲編曲を行うのと同様に,「コンピュータのための和声学」の確立を目指して,確率文脈自由文法に基づく手法を検討中である.本稿では,前挿入音と後挿入音の組み合わせで非和声音を表現した手法の改良の一つとして,非和声音を和音と和声内音との関係性によって分類した結果を利用し,より音楽的な非和声音の扱いが可能となるような確率文脈自由文法に基づく音楽生成モデルおよびその解析手法を考案したので,報告する.今回は音楽生成モデルを自動和声解析問題に適用し,音楽生成モデルから和声と楽譜が同時に生成され,楽譜のみが観測される場合に,隠れている和声を求める逆問題を解く.We are investigating the harmony theory for computers based on PCFG (Probabilistic Context Free Grammar) to model the music generation process toward automatic music composition and arrangement, simulating humans composing and arranging music using knowledge of harmony theory. We pay special attention on non-harmonic notes, and propose a PCFG-based method for musicological treatment of various non-harmonic notes by classifying relations between the chord and non-harmonic notes to improve the former approach to represent non-harmonic notes as inserted notes before and after harmonic tones. We apply the music generation model to automatic harmony analysis by solving the inverse problem to find the hidden chord sequence that has generated the given music score through the music generation model.
著者
佐々木 浩 中野 鐵兵 緒方 淳 後藤 真孝 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.10, pp.57-62, 2009-01-30
被引用文献数
3

ポッドキャストの音声認識における言語モデルの適応手法を提案する.ポッドキャストは,幅広い話題,タスクの音声データが日々増え続けるという特徴を持っているため,言語モデルをいかにして学習,構築するかが認識性能を左右する大きなポイントとなる.本稿では,言語モデリングにおいて,あらかじめポッドキャストが持つメタ情報と「語彙情報サービス」を活用することで,ポッドキャスト音声認識の性能向上をはかる.具体的には,あらかじめ用意された言語モデリング用学習テキストを各テキスト毎に特徴語を抽出し,ポッドキャストのタイトルや概要などに記載された語との共起を基準にテキストの選択を行い,ポッドキャスト毎に特化された言語モデルの学習を行う.加えて,学習テキストやポッドキャストのメタ情報上の語の不足から生じる,テキスト選択の精度低下の問題を解決するため,語彙情報サービスのタグ情報を活用する.本手法で適応された言語モデルを実際に用いて,その性能を単語パープレキシティと未知語率で評価した結果,単語パープレキシティがベースラインの86%,未知語率もベースラインの80%となり,言語モデルの性能が改善されたことが確認された.This paper presents a language model adaptation method for automatic transcription of podcasts. Since podcasts include speech data that contains a variety of topics and many newly created words, well designed language models are indispensable to achieve sufficient speech recognition rate. In this paper, we propose a new topic dependent language modeling method by using meta information of podcasts and vocabulary information service. In this method, a large amount of training data are collected from the Internet such as web news and blogs on a daily basis. By using RSS texts of podcasts, topic dependent texts are selected from these training data, and proper language models are created for each podcast. In addition, we utilize the tag information of the vocabulary information service to solve the problem of the precision fall of the text choice that the lack of the word in a learning text and a meta information of Podcast cause. The assessment result showed that the performance of the language model using this method is improved because the word perplexity of the result using this method is 86% of that of the baseline and the out-of-vocabraly rate of the result using this method is 80% of that of the baseline.
著者
増井 俊之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.19-28, 2003-02-07

ネットワーク上では,古くから様々な情報交換ツールが使用されており,時代とともに人気が変遷している.従来は電子メールやメーリングリスト(ML),ネットニュース,掲示板などがよく使われていたが,最近はWebページ上の掲示板,メールマガジン,インスタントメッセンジャー,Wiki Wiki Webのような新しい情報交換ツールも広く用いられるようになってきている.本稿では,新しいコミュニケーションツールとして今後が期待されるWiki Wiki Webとその拡張について述べ,またメーリングリストを非常に簡単に作成することができるQuickMLシステムについて紹介する.Various new group communivation tools on the Internet are emerging, and people can use a system that is most convenient for their communication needs. In this talk, we introduce two new systems for effective group communication. First, we introduce the Wiki Wiki Web system, which is a set of Web pages where anybody can modify the contents using standard Web browsers. Second, we introduce the QuickML mailing list management system, with which anybody can create and manage his own mailing list only by sending an e-mail message to the mailing list server.
著者
鈴木 良弥 川隅 里奈 関口 芳廣 重永 実
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.51, pp.21-26, 1995-05-25
参考文献数
6

話し言葉中では助詞の省略,曖昧な発声などが頻繁に起こる.従って,話し言葉の認識や理解を行なうには助詞の推定を行なう必要がある.我々は朗読文用連続音声認識システムをすでに作成しているが,そのシステムの助詞推定能力を人間と比較した.まず,話し言葉(対話文とスピーチ)中の各助詞の出現回数などを調べた.その結果,良く使われる助詞は対話文でもスピーチでもほとんど同じであることがわかった.また認識システムの出力と学生73人にアンケートを行なった結果とを比較した.実験により,学生が作成した文の約94%をシステムが生成し,システムが作成した候補文の約3%を学生が作成したことを確認した.We are trying to make our speech recognition system to correspond to spoken dialogue. First, we investigated the frequency of each particle in some dialogues and speeches, and we registerd 29 frequently used particles to our system. Second, We sent out a questionnaire to 73 students in order to compare with the performance of estimation of particles by the linguistic processor (case structures, syntactic rules, and so on) of our speech recognition system. According to the comparison, our system can generate most of sentences which students can think out.
著者
上野 智子 相川 清明
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2008, no.12(2008-SLP-070), pp.211-216, 2008-02-09

楽しい、悲しい、落ち着いたなどの感性表現で効果音を検索する Sound Advisor システムについてすでに報告している。本研究ではこれらデータベースの楽曲ごとの感性ベクトルを楽曲から自動生成するために音響特徴量と感性ベクトルとの関係の分析をおこなった。効果音楽のパワー、ピッチなどの響特徴と現在ある感性ベクトルとの回帰分析を行うことで、効果音楽の音響パラメータから感情パラメータへの変換行列を導く方法を提案する。
著者
山本 幹雄 貞光 九月 三品 拓也
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2003, no.104(2003-SLP-048), pp.29-34, 2003-10-17

混合ディレクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布)、文脈/文書の確率モデルを検討する。本稿では、混合ディレクレ分布のパラメータおよび適応時に必要な事後分布の期待値推定方法をいくつか述べ、動的に適応する?textit{n}gram言語モデルを用いた実験で確率的LSAのベイズ的な発展モデルとの比較を示す。混合ディレクレ分布や混合Polya分布は他のベイズ的な文脈モデルに比べて単純なので、予測分布を閉じた式で導出可能である。これは、Latent Dirichlet Allocation (LDA)のような他のベイズ的なモデルがいずれも予測分布の推定に近似を必要とする点と比べて、大きな優位性といえる。実験では、混合ディレクレ分布を用いたモデルが低い混合数で比較モデルよりも低いパープレキシティを達成できることを示す。
著者
菊池 智紀 古井 貞煕 堀 智織
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2002, no.121(2002-SLP-044), pp.225-230, 2002-12-16

本稿では,これまで我々が提案してきた単語抽出による要約手法の前処理として,重要文抽出を組み合わせた2段階の音声自動要約手法を提案する.本手法では音声認識の結果から,各文の構成単語の重要度,信頼度,言語的自然さの評価値から重要文抽出の要約スコアを求め,それをもとに認識率の低い文,理解困難な文をあらかじめ除いておく.次に,残された文に対して,同様の評価値に単語間遷移スコアを加えた要約スコアを最大にするような,部分単位列を抽出するという手法により要約文を作成し,高精度化をはかる.この手法を用いて講演音声を自動要約し,複数の被験者により作成された正解要約文単語ネットワークに基づく評価を行う.重要文抽出法を用いない従来までの要約手法との要約精度の比較を行った結果,提案手法の有効性が確認された.
著者
本間真一 小林 彰夫 佐藤庄衛 今井 亨 安藤 彰男 宇津呂 武仁 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.55, pp.29-34, 2001-06-01
参考文献数
12
被引用文献数
1

我々は、ニュース解説を対象にした音声認識の研究を行っている。これまでの研究では、解説音声は原稿読み上げ音声と異なる音響的特徴および言語的特徴をもつことや、学習データ量も不足していることから、まだ十分な認識精度は得られていない。そこで本稿では、比較的多くのデータ量が得られる講演スタイルの解説番組「あすを読む」を対象にした音声認識について検討を行う。ニュース原稿と「あすを読む」の書き起こしの混合による言語モデルの適応化、言語モデルの学習テキストと発音辞書におけるフィラーの扱いの見直し、音響モデルの話者適応などを行った結果、単語正解精度が67.4%から84.9 %まで改善した。We are studying speech recognition for news commentary. So far we haven't achieved satisfied accuracy for it, because speech of news commentary has different linguistic and acoustic features from read speech and supplies insufficient training data. Therefore, this paper treats speech recognition of a broadcast commentary program called "Asu wo Yomu (Reading Tomorrow)", which has rather more training data. We adapted language models by mixing the news manuscripts and transcriptions of "Asu wo Yomu" in their training texts, changed how to treat pause fillers in the training texts and word lexicon, and carried out speaker adaptation of acoustic models and so on. As a result, we improved the word accuracy from 67.4% to 84.9%.
著者
藤本 雅清 鷹尾 誠一 有木 康雄 松本 宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.68, pp.49-54, 2001-07-13
参考文献数
16

本研究では,社内で製作された商品の紹介映像を個々の商品区間へ分割(トピックセグメンテーション)し,商品名をインデックスとして付与するシステムの検討を行った.本研究におけるシステムでは,商品紹介映像の音声から音楽などの雑音を除去した後にキーワードスポッティングを行い,抽出された商品名を用いてトピックセグメンテーションを行っている.また,キーワードスポッティングにより商品名を抽出するためには,商品名辞書が必要となるが,本研究では,商品名辞書が事前に存在していない場合に,映像中のテロップ文字を利用して,オンラインで自動生成する手法についても検討を行った.実験の結果,商品名辞書が事前に存在している場合で約82%,商品名辞書を自動生成した場合で約60%の精度で区間分割を行うことができた.In this paper, we propose a method to segment goods catalog video into individual sections and index them. Our proposing method uses the keyword spotting which extract the keywords from noise reduced speech signal within the goods catalog video. In order to extract the keywords by using keyword spotting, the goods name dictionary is required. In this paper, we study a method to generate the goods name dictionary automatically, by using the video captions within the goods catalog video. As the experimental result, the proposed method could segment the individual goods sections with approximately 82% accuracy when the goods name dictionary is available, and with approximately 60% accuracy when goods name dictionary is generated automatically.
著者
半田 晶寛 レアンドロディペルシア 大田健紘 柳田 益造
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.1-6, 2006-02-03
参考文献数
10

残響環境下で,周波数領域ICAによるブラインド音源分離を行った際,持続時間が比較的長い混合音声に対してはある程度の分離精度を得ることができるが,1秒前後の短時間混合音声に対しては十分な分離精度をあげるに至っていない.主な原因は各周波数ビンでのデータ量不足と考えられる.そこで本稿では1秒前後の短時間混合音声における短時間フーリエ変換をする際の最適な窓長とシフト幅の調査を行い,データ量不足の影響を軽減させ,さらに周波数領域ICAの後処理として各周波数ビンでWienerフィルタを適用させることで,分離精度の向上を図った.Frequency-domain ICA is effective for separating mixed speech signals of long duration but it is not the case for signals of short duration in environments having ordinary reverberation time. The main reason would be lack of data in each frequency bin. The optimal window size and shifting interval for separating short speech are investigated, and Wiener filter is adopted in each frequency bin as post-processing of frequency-domain ICA.
著者
大西 翼 ディクソン ポール 古井 貞煕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.103, pp.1-6, 2007-10-19
被引用文献数
7

本稿では、実用的な音声認識デコーダの実現に向けて東京工業大学で開発が行われている、WFST を利用した音声認識デコーダについて、概要とその性能について述べる。本デコーダでは、スケーラビリティを向上させるために、省メモリ化として on-the-fly 合成と disk-based search、高速化として、GPU を利用した音響尤度計算の実装が行われている。この他にも、実用化に向けた様々な機能が実装されている。これらについての詳細を述べる。また、WFST 音声認識で問題となるメモリ消費量の増大を解決するために、本デコーダで行われている省メモリ化について、CSJ を利用して性能評価を行った。その結果、on-the-fly 合成を行うことで最大で 60%以上のメモリ消費量の削減をまた disk-based search を行うことで最大で 60%以上のメモリ消費量の削減を確認した。さらに、これらのアプローチを組み合わせることで、すべての WFST を事前に合成した場合と比較して、80%程度のメモリ消費量の削減を確認した。これらの実験により、本デコーダの省メモリ化についてのアプローチの有効性を示した。This paper presents an overview of the Weighted Finite State Transducer (WFST) based speech decoder being developed at Tokyo Institute of Technology and illustrates the performance via evaluations on the Corpus of Spontaneous Japanese. The decoder has a rich feature set including on-the-fly composition, disk-based search and a new method for accelerating acoustic likelihood calculations using graphics hardware. To provide flexibility there is a highly configurable front-end, batch or live operating modes and lattice generation. Experiments were conducted to evaluate the memory consumption in various configurations. By using either on-the-fly composition or a disk-based search network a memory reduction of more than 60% was achieved. Furthermore, a combination of these techniques with additional factoring of the WFST reduced the memory consumption by over 80%.
著者
阿部 匡伸 水野 秀之 中嶌 信弥
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.66, pp.67-72, 1997-07-18
被引用文献数
10

音声作成ツール (peech editor 9)を開発した。本システムは、グラフィカルユーザインタフェース (U) を用いて、音声合成のパラメータが操作できるものであり、その目的は、従来のTTSでは不可能であったきめ細かな制御を可能とし、多種多様な品質や表情で音声を合成することにある。操作法には、漢字かな混じり文、アクセント型等をテキストベースで修正するモードと、音声のパワー、基本周波数、継続時間をパラメータレベルで修正するモードとがある。UNIX上とWindows95上で動作している。Speed97で作成された音声は、音声信号と音素記号等との対応が明確になっているため、他のメディアとの同期が容易にとれる等のメリットがある。また、Speed97は、音声ガイダンスの作成等の音声メッセージの作成ばかりでなく、例えば、感情を込めてせりふを読ませるなどして演技させることも可能である。さらに、Speed97で作成された音声は、1kbit/s以下の高能率音声符合化音声として利用することも考えられる。We developed a tool (Speech editor 97) to create speech messages. Steed97 provides a graphical user interface to manipulate parameters of speech synthesis, and makes it possible to synthesize various types of speech. The manipulation is performed in text level such as to change Chinese characters and accent types, and in parameter level such as to modify speech power, fundamental frequency and duration. Speed97 runs on UNIX and Windows95. Speech messages created by Speed97 have several advantages. Examples include easy synchronization with other media such as moving picture, because the speech is associated with phoneme symbols, and a low bit rate; i.e., only phonetic symbols and prosodic parameters should be transmitted; approximately 1 kbit/sec or less.
著者
山本 一公 中村 哲 武田 一哉 黒岩 眞吾 北岡 教英 山田 武志 水町 光徳 西浦 敬信 藤本 雅清
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.75, pp.101-106, 2003-07-18
被引用文献数
26 4

本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,雑音 下音声認識評価用共通データベースAURORA-2Jと,その標準評価スクリプトによるベースライン評価結果について述べる.AURORA-2Jは,AURORAプロジェクトの AURORA-2データベースの日本語版として設計され,標準評価スクリプトも AURORA-2で配布されているスクリプトをベースとして開発されている.この共通 評価フレームワークにより,各機関における雑音環境下音声認識手法の性能を容 易に比較することが可能となり,雑音環境下音声認識手法の発展を促すことがで きると考えられる.また,自動車内における数字/コマンド発声データベースで あるAURORA-3Jの開発進捗状況についても述べる.This paper introduces a common database, an evaluation framework, and its baseline recognition result for noisy speech recognition, AURORA-2J, as an outcome of IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. AURORA-2J is designed as Japanized version of the AURORA-2 database and the evaluation framework is based on the AURORA-2 baseline scripts. This common evaluation framework enables to compare various noisy speech recognition techniques on a common ground. We hope more development of noisy speech recognition techniques using this evaluation framework. We also describe about AURORA-3J, digits and speech command database in car environments.