著者
勝丸徳浩 秋田 祐哉 森 信介 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.68, pp.25-30, 2008-07-11
被引用文献数
5

我々は,大学の講義におけるノートテイク支援を目標とした音声認識システムの研究開発を行っている.本研究では,専門性の高い講義に対して,言語モデルを効率的に適応する方法を検討する.大学の講義では,同一の講師が同一科目を一定期間担当することが通例であるので,以前の講義のデータを活用することを考える.ノートテイクが音声認識結果を評価・選別する応用場面を想定して,認識結果を教師ありで言語モデル適応に用いる方法と,音声認識結果の信頼度に基づいて教師なしで適応する方法を検討する.さらに,講義スライドを用いて, PLSA や Web テキスト収集に基づいて適応する手法との統合も行い,効果を確認した.We are developing an automatic speech recognition (ASR) system to assist note-taking in the classroom. In this work, we focus on an efficient method to adapt the language model (LM) for ASR to university lectures, in which a number of technical terms are used. We assume that one lecturer teaches a specific course subject through a certain period (a semester), and exploit the data of the lectures previously given by the same lecturer. Specifically, we propose an LM adaptation scheme supervised by the note-takers, who verify the ASR results and filter the well-recognized hypotheses. We also investigate an unsupervised adaptation method based on the confidence score of ASR. The methods are combined with other LM adaptation methods based on PLSA and Web text collection using the lecture slides.
著者
児玉 哲彦 清水 友理 安村 通晃
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.11, pp.29-33, 2007-02-09

近年東京都秋葉原の電気街において再開発が進み、来訪者の行動において、これまでの電気街と線路を挟んだ再開発地域との間の分断等の困難が生じていることが明らかとなった。本研究では、電気街についての土地勘を共有し、街の多様な利用を促進するため、携帯電話と QR コードを用いて来訪者の訪れた店舗の履歴を記録し、利用者間の交換を可能にする街のソーシャルブックマークシステム「ここ HORE」システムの開発と運用について報告する。ユーザビリティ評価実験の結果、スポットのマーキングと検索については概ね問題なく利用できるものの、地図情報の表示については改善が必要なことが明らかとなった。Nowadays in the Electric town of Akihabara, Tokyo, due to the redevelopment which is in progress, there are multiple difficulties in exploring the town, such as diversion between the electric town and the redevelopment area. In this research, in order to share the locality knowledge and to promote various experiences in the town, we developed and operated a social bookmarking service for town called "KokoHORE" that records the spots which a visitor has visited combining the cellular phone and the QR code and let the users exchange the record. From the usability testing, we concluded that the marking of the spots and the search generally functioned well, but the map view needs improvement.
著者
谷 真宏 江森 正 大西祥史 越仲 孝文 篠田 浩一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.85-89, 2007-12-20
被引用文献数
4

十分統計量を用いた教師なし話者適応において,選択する話者の数を決定する手法を提案する.音声認識における高速な教師なし話者適応の一つとして,話者毎の十分統計量を用いた手法が提案されている.これは,予め用意した複数の話者の中から,評価話者に音響的な特徴が近い話者を選択し,選択された話者の十分統計量を用いて,評価話者に適応した音響モデルを構築する手法である.従来手法では,評価話者に音響的な特徴が近い話者を選択する際,複数の話者の中から,予め定められた数だけ選択する.提案手法では,評価話者と予め用意した話者との音響特徴量空間における話者間距離を基準に,選択する話者の数を決定する.電話による対話音声を用いた認識実験において,従来手法に比較し,単語正解精度が 0.74 ポイント向上した.特に,音響的な特徴が近い話者が少ない評価話者に対して有効であることを確認した.We propose a new speaker selection method for the unsupervised speaker adaptation based on HMM sufficient statistics. The adaptation technique of using HMM sufficient statistics has been proposed as one of the rapid unsupervised speaker adaptation techniques in speech recognition. The procedure is as follows: First the training speakers acoustically close to the test speaker are selected. Then, the acoustic model is trained using the HMM sufficient statistics of these selected training speakers. In this technique, the number of selected training speakers is always constant. In our proposed speaker selection method, the number of speakers is determined by the distances between the test speaker and each training speaker. In our recognition experiments using spoken dialogue data, the proposed method improved word accuracy by 0.74 points. It was confirmed that the proposed method particularly effective when there are not many training speakers around the test speaker in acoustic space.
著者
中川 聖一 堀部 千寿
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.55, pp.87-92, 2001-06-01
被引用文献数
5

最近、多くの大語彙連続音声認識システムが開発、使用されているが、音声認識された結果には、認識誤りが含まれることが多い。そこで、音声認識の結果どの部分が正しいか、または誤っている可能性が高いかを判別できればアプリケーションに対する悪影響を軽減することができると考えられる。このような正しい(誤っている)可能性が高いかを判別するパラメータは信頼度(Confidence Measure)とよばれ、大語彙音声認識システムや対話システムなどでの利用が考えられている。本稿では信頼度を音響的なアプローチと言語的なアプローチからそれぞれ計算し、それぞれの結果の論理和をとることにより、正解単語の判定の精度を向上させる方法を提案する。The recognition errors are inevitable for large vocabulary continuous speech recognition systems. If unreliable candidates are correcty identified, the harmful influence caused by recognition errors will reduce. The measure of reliability is called "Confidence Measure" and it is useful for various applications such as transicription systems and dialogue systems. In this paper, we propose a new conefidence measure which combines logically the likelihood of acoustic model and that of language model.
著者
ゴメス ランディ 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.10, pp.19-24, 2009-01-30

残響下での音声認識は非常に困難なタスクである。従来の残響抑圧手法の大半が、音声認識器とは独立に音声波形を修復するものであった。これに対して本研究では、音声認識に用いる音響モデルの尤度が大きくなるように、残響抑圧のパラメータを最適化するアプローチを提案し 、これをスペクトルサブトラクションに基づく方法に適用する。本手法により、残響抑圧と音響モデルの学習を統合して行うことができる。さらに音声認識(デコーディング)時にも、テストデータに対して残響抑圧パラメータの最適化を行う。大語彙連続音声認識による評価実験の結果、提案手法が従来手法に比べて、認識性能を有意に改善することを確認した。Speech recognition under reverberant condition is a difficult task. Most dereverberation techniques used to address this problem enhance the reverberant waveform independent to that of the speech recognizer. In this paper, we expanded and improved the conventional Spectral Subtraction-based (SS) dereverberation technique. In our proposed approach, the multi-band SS parameters are optimized to improve the recognition performance. Moreover, the system is capable of adaptively fine-tuning these parameters in the acoustic modeling phase. Experimental results show that the proposed method significantly improves the recognition performance over the conventional approach.
著者
金寺 登 Hynek Hermansky 荒井 隆行 船田 哲男
出版者
情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.120, pp.15-22, 1997-12-11

CMS法や動的特徴は変調周波数特性を操作することにより音声認識性能が向上することが知られているが、どの変調周波数がどの程度重要であるのかという定量的な検討は行われていない。そこで本研究では、様々な変調周波数特性を持った入力に対し、音声認識性能の違いを種々の雑音環境、認識方式、特徴量のもとで調べた。その結果、以下のことが分かった: ) 言語情報のほとんどが1?16 Hzの変調周波数帯域に存在し、その中でも4 Hz付近が最も重要である。) 変調スペクトルにおいては位相情報も重要である。) 4 Hz付近の変調周波数を含む特徴量を用いることで動的特徴量と同等以上の結果が得られる。) 適切な中心周波数と帝域幅をもつ複数のサブバンドを変調周波数上で用いることにより、認識性能がさらに向上する。We report on the effect of band-pass filtering of the time trajectories of spectral envelopes on speech recognition. Several types of recognizers, several types of features, and several types of filters are studied. Results indicate the relative importance of different components of the modulation spectrum of speech for ASR. General conclusions are: (1) most of the useful linguistic information is in modulation frequency components from the range between 1 and 16 Hz, with the dominant component at around 4 Hz, (2) it is important to preserve the phase information in modulation frequency domain, (3) The features which include components at around 4 Hz in modulation spectrum outperform the conventional delta features, (4) The features which represent the several modulation frequency bands with appropriate center frequency and band width increase recognition performance.
著者
田本 真詞 川端 豪
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.74, pp.13-18, 1996-07-26
被引用文献数
4

音声対話システムと人間との快適なコミュニケーションを実現させるには、音声対話システムに対話を協調的に進めるための機構が必要と考えられる。そこで人間同士の対話記録の分析から対話の協調的機構に関わる知識を獲得し、対話システムへ応用することが検討されている。本研究では、実際の音声対話における間投詞、終助詞などの発話の開始・終了符号、あいづち・復唱などの応答などの対話の調整やそのふるまいなどを観察し、対話の協調的機構のための知識の獲得を検討する。特に、対話の調整の観察のためのタスクとして目的指向型協調作業に着目し、タスクと同時発話や言い差し、間投詞的応答など発話権の移動に関わる対話の調整との関連を分析する。This report describes some feature of dialogue coordination that convey intentional and operational information of utterances. For constructing an effortless speech conversation system, it is necessary to implement the coordination mechanism in spoken dialogues. To analyze the dialogue coordination, we collect two kinds of task-oriented cooperative speech dialogues named Client-Manipulator task and Client-Advisor task. We analyze the relations of turn-taking behaviors to the dialogue coordination in various tasks and dialogue conditions.
著者
森 大毅 粕谷 英樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.55, pp.55-62, 2001-06-01
被引用文献数
2

音声対話システムのための言語モデルとしてsuperwordモデルを提案しており、パープレキシティの点で優れていることがわかっている。本報告では、音声対話システムの応答タイミングの高度な制御を目的として、superwordに基づく話者交替の予測モデルを提案する。話者交替/非交替のキューとなる表現の抽出のため、superword確率から計算されるキューの強度を定義した。キューの強度に従って抽出したsuperwordには、話者交替に関係があると思われる表現が多く含まれていた。また、一部のタスクに対してはキューの強度分布が実際の話者交替/非交替によって異なることから、提案した予測モデルの有効性が示された。The superword model is a data-driven framework for dialogue modeling and its superiority was shown in our previous works. In this report, we propose a superword-based turn-taking prediction model for precise control of responce timing of spoken dialogue systems. First, cue intensity is defined with superword probability in order to extract cue expressions for turn-taking or turn-holding. Extracted superword set is shown to include a lot of relevant expressions to turn-taking. Finally, the effectiveness of the proposed prediction model for some tasks has been revealed by showing the difference of cue distribution according to actual turn-taking / turn-holding.
著者
森 信介 山地 治 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.120, pp.87-94, 1997-12-11
被引用文献数
8

本論文では、文字 n?gramモデルや形態素 n?gramモデルの予測単位を文字列や形態素列に拡張した連文字 n?gramモデルや連語 n?gramモデルを定義し、予測力という観点でモデルを改善する方法を提案する。モデルの探索における目的関数は、形態素クラスタリングで有効性が示されている平均クロスエントロピーである。これは、削除補間のように、評価用のコーパスとモデルの推定用のコーパスとを別に用意するというアイデアに基づいている。日本語コーパスを用いた実験の結果、クロスエントロピーを計算すると、連文字 n?gramモデルは4.3791であり文字 n?gramモデルの5.4105より低く、連語 n?gramモデルは4.4555であり形態素 n?gramモデルの4.6053より低く、モデルの改善が観測された。In this paper, we define a string-based n-gram model and a phrase-based n-gram mode as expansions of character n-gram model and word-based n-gram model, and we propose a method to improve an n-gram model in terms of prediction. The objective function in model search is the average cross entropy, which is proven to be effective for word clustering. This criterion is, like deleted interpolation, based on the idea of separation of the corpus for evaluation and the corpus for model estimation. As an experimental result on a Japanese corpus, we obtained the entorpeis as follows: the string-based n-gram model had 4.3791, which is less than the character n-gram model's 5.4105, and the phrase-based n-gram mode had 4.4555, which is less than the word-based n-gram model's 4.6053.
著者
中沢 正幸 向井 理朗 関 進 綿貫 啓子 三吉 秀夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.15, pp.35-35, 2000-02-04

In this paper we describe a multimodal human interface system MAICO (Multimodal Agent Interface for COmmunication) based on Dynamical Dialogue Model. This system not only integrates information of a speech processing and a gesture processing but also controls the response timing in order to realize a smoothness and a easy interaction between a user and a computer. Our approach consists of human-human dialogue analysis and computational modeling of dialogue.In this paper, we describe a multimodal human interface system, MAICO (Multimodal Agent Interface for COmmunication), based on Dynamical Dialogue Model. This system not only integrates information of a speech processing and a gesture processing, but also controls the response timing in order to realize a smoothness and a easy interaction between a user and a computer. Our approach consists of human-human dialogue analysis, and computational modeling of dialogue.
著者
峯松 信明 片岡 嘉孝 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.100, pp.39-46, 1995-10-20
被引用文献数
23

本研究では講演調の話し言葉に対して,音響的/言語的,更には知覚的観点から分析を行なった。特に,講演調の話し言葉に対して人間が感じる「ポーズ(間,区切り)」が音響的(物理的)なポーズとどの程度対応がとれるのか,そして,知覚的ポーズの周辺にはどのような言語表現(間投詞,つなぎ語,終助詞)が頻出するのか,の2点に焦点を置いた分析を行なった。その結果,音響的ポーズと知覚的ポーズとの相関には発話速度が関与していることが示された。また,知覚的ポーズをほぼ確実に引き起こす言語表現として「え[?]」「え[?]と」「で」が観測された。なお本報告では,50年代より言語学者らによって行なわれてきた話し言葉に村する研究例のサーベイも行なっている。これらの研究例を考察することは工学的応用と言う観点から考えた場合においても,非常に有益なことである。Analysis of spoken language in lecture style was carried out from acoustic, linguistic and perceptual viewpoints. Especially, the correlation was investigated between pauses which human listeners perceive in lecture-style speech and those which were detected semi-automatically using some acoustic methods. Linguistic expressions(interjections and filled pauses) around the perceptual pauses were also analyzed. As a result, it was found that the correlation between the two types of pauses was influenced by speech rate and that "e[e]", "e[e]to" and "de" were observed as the linguistic expressions which caused perceptual pauses in quite high probability. And in this paper, some of the traditional researches for spoken language conducted not by engineers but by linguists were also surveyed. It is very beneficial to look into these researches in terms of technological application.
著者
桃崎浩平 原 義幸 正井 康之 松浦 博 新田 恒雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.16, pp.21-26, 1997-02-07

パーソナルコンピュータの高速化とオーディオチップの標準搭載により,音声合成・認識機能がソフトウェアだけで実現できるようになった.これにともなって,音声を利用したアプリケーションソフトウェアが容易に開発できるような環境が整いつつある.本文では,標準APIの一つである米マイクロソフト社のSAPIを中心に紹介するとともに,OCXを用いる応用ソフトウェア開発について解説する.Contemporary PCs provide sufficient computer power to accommodate Text-to-Speech(TTS) and Speech Recognition(SR) with no additional hardware. On the other hand, the environment for developing speech application software still remains in a big issue. In this paper, we first explain the Microsoft Speech API, as one of the standard APIs for speech technologies, and then present some examples of applocation software using SAPI and speech OCX.
著者
江渡 浩一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2004, no.74, pp.53-58, 2004-07-16
被引用文献数
2

音声認識,音声合成などの音声処理技術はすでに成熟した技術となったが,まだ一般に普及したとは言えない状況である.コンピュータとのインタフェースに音声を用いる音声インタフェースの応用事例として,本稿では,非日常的な状況,アートやエンターテインメントといった分野における音声処理技術の応用事例についての動向をまとめるものである.音声認識,音響処理,歌唱合成などを応用した事例において,近年注目すべき作品が出てきている.Although sound processing technologies, such as speech recognition and speech synthesis, are matured, they are not in widespread use yet. I explore the current movement of the applications in the field of Art and Entertainment, as application of Voice Interface, using voice for man-machine interface. Recently, there are some remarkable works in the applications using speech recognition, acoustic analysis and singing voice synthesis.
著者
北山 広治 後藤 真孝 伊藤 克亘 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.58, pp.67-72, 2003-05-27
被引用文献数
5

本稿では,非言語情報の一つである言い淀み(有声休止)を活用し,ユーザが音声認識を開始してほしいタイミング(発話区間の始端)を,言い淀むことによって明示的に指示できる「音声スタータ」という新しい音声インタフェースを提案する.通常の音声認識システムは,発話区間の切り出し後に音声認識を行うため,雑音下での切り出しミスが認識精度に悪影響を与え,頑健性を保証することが困難であった.我々は,有声休止が雑音下でも頑健に検出できると考え,常に有声休止の途中から音声認識を開始することで,信頼性の高い発話区間の検出方法を実現することを試みる.様々な雑音環境下で4種類の発話区間検出方法を比較実験した結果,音声スタータは他の検出方法に比べ,特に低SNR(10dB以下)の条件で高い性能が得られた.In this paper we propose a speech interface function, called speech starter, that enables noise-robust endpoint (utterance) detection for speech recognition. When current speech recognizers are used in a noisy environment, a typical recognition error is caused by incorrect endpoints because their automatic detection is likely to be disturbed by non-stationary noises. The speech starter function enables a user to specify the beginning of each utterance by uttering a filler with a filled pause, which is used as a trigger to start speech-recognition processes. Since filled pauses can be detected robustly in a noisy environment, reliable endpoint detection is achieved. Experimental results from a 10-dB-SNR noisy environment show that the recognition error rate with speech starter was lower than with conventional endpoint-detection methods.
著者
栗山 直人 鈴木 基之 伊藤 彰則 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.37-42, 2006-02-04
被引用文献数
3

PLSAは,文章の特徴「話題」を反映した言語モデルを構築する手法である.このPLSA言語モデルの拡張を提案する.前半ではPLSA言語モデルの学習について,既存の複数の方法を比較し,EMアルゴリズムのアニーリングスケジュール最適化についての検討を行う.後半ではPLSA言語モデルを内容語モデルと機能語モデルに分割し,話題(トピック)と話し方(スタイル)を,別々に学習・適応することで従来のPLSA言語モデルよりもより柔軟な言語モデル適応を試みる.その結果学習最適化についてはβを1.0 から特定の値に向けて減少させるアニーリングスケジュールが最適という結果が得られた.内容語・機能語に分割したモデルについてはtrigramに対するPerplexityが従来のPLSA言語モデルの83.90% から82.23% へ改善した.PLSA is a method of composing language model which can reflect the global charactetistics of linguistic context as "topic". We propose more extention of PLSA language model. First, we compare the conventional learning methods of PLSA language model, and examine the optimization of EM annealing schedule. As a result, we found that the best method is to reduce β from 1.0 to some special value. Next, we compose a PLSA language model whose vocabulary set is divided, into content words and function words. Then training and adaptation to topic or style are performed separately. In the experiment, we acheived 82.23% perplexity reduction against conventional way 83.90%.
著者
李晃伸 山田 真士 西村 竜一 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.103, pp.49-54, 2004-10-22
被引用文献数
8

機械に対するユーザの自然な実発話の収集と統計的な分析のために,我々は音声情報案内エージェントシステム「たけまるくん」を公共施設に設置し,2004年5月までの19ヶ月間で約17万発話を収集・整備した.本稿では現在のシステム構成,収集データの分析結果および雑音・不要音棄却実験の結果を報告する.全体のおよそ 30%が雑音などの非音声入力であった.音声入力のうち81%が有効発話であり,残りは背景会話・無意味な発声・不明瞭で聞き取れない発声・発話断片・オーバフローなどの応答不能な無効発話であった.これらの無効発話に対して,入力長とGMMに基づく雑音・不要音棄却の性能を評価した.1か月分8 248個のデータで実験した結果,雑音・息・咳・笑い声などの非音声入力は99%棄却でき,叫び声や遠隔で発声された背景会話もある程度棄却できることが分かった.一方で,発話断片やドメイン外発話については音響的特徴からの弁別は難しかった.In order to collect user's actual utterances to a speech dialogue system on real situation, we have located a speech-oriented information guidance system called ``Tekemaru-kun'' at a public civil hall, and collected 177,789 inputs via 19 months' operation. This paper will report the current system architecture, details of collected data and experimental results of invalid input rejection. As a result, non-voice (noise) inputs occupies about 30% of total input, and 81% of voice inputs are valid inputs. The rests are invalid voice inputs that includes background speech, incomprehensible voice, obscure speech, fragmented speech, level overflow and so on. Rejection of those invalid inputs has been examined based on input length threshold and GMM-based identification. Experiments on 8,248 inputs of one month showed that almost all of noise and non-verbal inputs such as breath, coughing and laughter can be rejected successfully, and distant background speech and shouts were also discriminative, whereas out-of-domain utterance, obscure speech and fragments cannot be detected only by the acoustic property.
著者
上野 智子 相川 清明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.211-216, 2008-02-09
被引用文献数
1

楽しい、悲しい、落ち着いたなどの感性表現で効果音を検索する Sound Advisor システムについてすでに報告している。本研究ではこれらデータベースの楽曲ごとの感性ベクトルを楽曲から自動生成するために音響特徴量と感性ベクトルとの関係の分析をおこなった。効果音楽のパワー、ピッチなどの響特徴と現在ある感性ベクトルとの回帰分析を行うことで、効果音楽の音響パラメータから感情パラメータへの変換行列を導く方法を提案する。Emotional representations are more effective than conventional keywords such as genres and artist names in retrieving music. A vector-based Sound Advisor system has been reported for retrieving background music in emotional phrases such as "happy", "sad", "calm" or "angry". This report analyzed the relation between emotional representation vectors and acoustic features for automatically generating emotional representation vector table of the sound retrieval system. This report proposes a method for deriving a transformation matrix from acoustic feature parameters to emotional parameters based on regression analysis.
著者
甲斐 充彦 中野 崇広 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.12, pp.81-86, 1998-02-05
被引用文献数
15

近年、wwwブラウザは携帯情報端末などをはじめ、様々な用途・環境で用いられつつある。そこで、音声入力を用いたWWWブラウザ操作システムを試作し、音声による効率的な操作の実現方法について検討した。本システムは、閲覧中のホームベージ文書中のリンクに対応しているキーワードやその一部の発話により、リンク先へのジャンプをはじめとするWWWブラウザの操作を実現した。ユーザが発話する可能性があるキーワード断片をHTMLテキストの形態素解析結果を用いて抽出すると同時に、文書構造も含めたキーワードの指定を許すような言語制約を自動生成するようにした。本システムは、ユーザが種々の計算機環境で利用できることを想定し、ネットワークベースで動作する音声認識サーバを用いてクライアント・サーバ構成で実装し、ユーザが比較的容易に利用できるWWWブラウザの音声操作システムを実現した。Recently, the WWW browser has been used by many kinds of people and with various computational environments such as the personal digital assistant. In this study, we developed a voice-operating WWW browser and investigated the methods which make the best use of the property of speech for operating a WWW browser. Our system allows a user to utter a voice command for jumping to a desired link without using a keyboard and/or mouse. The user only need to utter a keyword or its fragment which corresponds to the desired link. The keywords are dynamically extracted from a HTML file on a last-specified URL and their meaningful fragments from the output of a Japanese morpheme analyzer are added to the system's lexicon. Some additional expressions for specifying keywords are automatically added by using the structural information of a HTML document. This system is implemented by a client-server architecture and thus a user can effectively use this system on standard PCs.
著者
長野 徹森信介西村雅史 森 信介 西村 雅史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.69, pp.81-86, 2005-07-16
被引用文献数
1

本論文では、規則音声合成における読みとアクセントを、確率モデルに基づき同時に推定する手法を提案し、その実験結果を報告する。規則音声合成において、任意の入力テキストに対し、正しい音韻情報と韻律情報を生成することは、自然な合成音声を得るために重要な要件である。本研究では、入力テキストに対し、最も基本的な音韻情報と韻律情報である読みとアクセントを付与する問題を取り扱う。日本語の場合、入力テキストは一般的に漢字仮名交じり文であり、複数の読み候補から正しい読みを推定する必要があるとともに、その読みに対して正しいアクセントを推定する必要がある。従来、日本語テキストに対して、形態素解析・読み付与・アクセント句決定・アクセント核決定、という手順を段階的に行うことで、読みとアクセントを決定することが多かったが、本研究では、表記(単語境界)・品詞・読み・アクセントを1つの単位とみなし、n-gram モデルを用いて同時に推定する。実験では、ルールに基づきアクセント句およびアクセント核を決定する逐次的な手法との比較を行った。その結果、確率モデルに基づく手法の精度がルールに基づく手法の精度を上回ることを確認した。We present a new stochastic approach to estimate accurately phonemes and accents for Japanese TTS (Text-to-Speech) systems. Front-end process of TTS system assigns phonemes and accents to an input plain text, which is critical for creating intelligible and natural speech. Rule-based approaches that build hierarchical structures are widely used for this purpose. However, considering scalability and the ease of domain adaptation, rule-based approaches have well-known limitations. In this paper, we present a stochastic method based on an n-gram model for phonemes and accents estimation. The proposed method estimates not only phonemes and accents but word segmentation and part-of-speech (POS) simultaneously. We implemented a system for Japanese which solves tokenization, linguistic annotation, text-to-phonemes conversion, homograph disambiguation, and accents generation at the same time, and observed promising results.