著者
嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.1994, no.40, pp.23-30, 1994-05-20
被引用文献数
18

いままで多数の研究者が、音声認識は有用な技術であると信じて研究開発に多大な努力を払ってきた。しかし、実際にはその実用化は思ったほどはかどってはいないようである。何が問題なのだろうか?何を解決すれば爆発的に実用になるのだろうか?この問題を議論するために、E?mailを用いた事前討論を開始し、多数の方々からの返答を得た。この報告書は、これら返答の中から筆者が取捨選択してまとめたものを基礎に、筆者の考えも加えて議論している。Although a number of researchers and engineers have paid considarable efforts in research and developement of automatic speech recognition technologies, speech recognition is not yet so widely used in the real world as we expected. What is the problem? What should be done to bring a boom of real applications to the speech recognition technology? To raise a wide-spread discussion, the author introduced an E-mail discussion on this problem. A number of replies have been received from speech researchers. This report includes summary of the E-mail discussion as well as author's own views.
著者
石井 和夫 鈴木 紀子 岡田 美智男 NickCampbell
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.66, pp.59-66, 1997-07-18
参考文献数
12

漫才は相互作用の結果として生成される。漫才らしさは対話のダイナミクスの中に存在し、それは相互作用によって生み出される。漫才を音声対話的に見ると、「笑い」は対話の場にゆらぎを与え、「共話」は自然性を与えており、共に対話の場を盛り上げる効果を持つ。様々な対話のダイナミクスを説明するために対話の場の考えを導入した。相互作用する二つの力学系が対話の場を作る。強い相互作用によって予期的な動作をするようになった系は共話をつくりだすことができ、予期からのくずしともどしによって笑いが生じる。対話のダイナミクスを創発的計算で生成することを試みている。Manzai is a comic stage dialogue performed by comic duo. Manzai dialogue is created as the result of interaction. The characteristics of manzai is found in the dynamics of dialogue and it is created by interaction. In manzai as the speech dialogue, "laughs" give fluctuation to the field of dialogue and "codialogues" make the dialogue natural. We exploit the notion of the field of dialogue to explain various dynamics. Two dynamical systems that interact with each other make the field of dialogue. The strong interaction gives the system predictive ability. The system with predictive ability can make co-dialogues and laughs occur from the slip and recovery. We are trying to generate the dynamics of dialogue using emergent computaion.
著者
剣持 秀紀 大下 隼人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.51-56, 2008-02-08
被引用文献数
1

"VOCALOD"とは、ヤマハが開発した素片連結型の歌声合成技術およびその応用商品の総称である。2007年8月末に発売されたその応用商品「初音ミク」(クリプトン・フューチャー・メディア株式会社)は、音楽制作用のソフトウェアとしては異例の販売本数を記録している。本稿では、VOCALOIDの基本構成、合成アルゴリズムを紹介し、今後の課題と展開について論じる。"VOCALOID" is a concatenative singing synthesis technology developed by Yamaha Corporation, and also a trademark for its application products. Its application software "Hatsune Miku" released in the end of August 2007 by Crypton Future Media Inc., recorded an extraordinary number of sales as software for musical creation domain. In this paper, we would like to introduce its overview, its synthesis algorithm, and discuss future tasks and prospects.
著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
岡田 美智男 鈴木 紀子 石井 和夫 EdwardAltman
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.66, pp.39-44, 1997-07-18
被引用文献数
1

日頃,何気なく繰り広げられる「雑談」とはそもそも何なのだろう.従来の対話研究では,まだ十分に議論が尽くされてはいない.目的もなく延々と繰り広げられる「雑談」は,これまでの対話研究の中では「その他」として分類され、周辺的に扱われてきた.「雑談」とは,得体の知れない,雑多なものなのだろうか.我々はこの「雑談」に対して,次の二つの側面に焦点を当てた研究を進めている.() 間身体的な場の構築とそれに基づく他者理解の方略としての雑談,() 発話の多声性とそれに伴う意味生成過程の場としての雑談.これら具体的な考察を進めるために,本研究ではそれぞれ「ピングーの世界」と「共同想起対話」を取り上げ,現象に対する構成的な理解を進めるための二つのテストベッドを構築した.「雑談とは何か」についてまとめながら,コンピュータとの「雑談」的な関わりの意義について考えたい.What is the primary motivation that we have a chatting with social others? Conventional dialogue model is based on a formalization of goal-oriented activities as a joint action. What are the prepared goals and plans in our everyday spontaneous conversation? We can just enjoy it through the maintaining of conversational field with others, and the sharing a particular common experience. In this paper, we try to explain motivations to have a joint remembering and a strategy to communicate each other mediated by an emergent computation on the dialogue processes. We show a constructive model for the joint remembering and primary inter-subjectivity that emerged from the joint remembering
著者
藤田 徹 北原 鉄朗 片寄 晴弘 長田 典子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.199-204, 2008-02-09

本論文では,アーティストの音楽的特徴を抽出し定量的に扱う手がかりとして,テトラコルド論に着目した音楽分析の結果を報告する.テトラコルド論では,完全4度の音程関係にある2音(核音)と,その中間音(補助音)から作られる音列をテトラコルドと定義し,この音列の組み合わせで様々な音階が作られるとされている.本論文では従来のテトラコルドを内側テトラコルド,補助音が核音の外側にあるテトラコルドを外側テトラコルドと新たに定義し,全48種類のテトラコルドに対してそれぞれの出現確率を調べた.この分析を久石譲,坂本龍一,葉加瀬太郎,小室哲也,西村由紀江の5アーティストと日本民謡,沖縄民謡,クラシックの3ジャンルに対して行った結果, 日本民謡や久石,坂本の楽曲に高い確率でテトラコルドが出現した.また,内側テトラコルドが多いほどメロディの予期性が高く、外側テトラコルドが多いほど意外性が高いことが分かった.さらに得られた出現確率データに主成分分析,線形判別分析による多次元空間へのマッピングを行い,それぞれのジャンルやアーティストの区別にどのようなテトラコルドが寄与しているかを示した.This paper reports the result of a music analysis focused on Tetrachord theory in order to extract and quantify the characteristics of a musician. According to tetrachord theory, a tetrachord is defined as a series of three tones where two core tones are related by a perfect fourth and a single auxiliary tone is placed between the two core tones. From these chordal combinations various types of scales are derived. In this study, however, we define the traditional structured tetrachord as an "inside-tetrachord" and a tetrachord structure where the auxiliary tone is placed outside the perfect fourth as an "outside-tetrachord." We investigated the frequency in which all 48 tetrachords occur to analyse music composed by five Japanese musicians: Joe Hisaishi, Ryuichi Sakamoto, Taro Hakase, Tetsuya Komuro, and Yukie Nishimura, and in three genres: Japanese folk song, Okinawa folk song, and classical music. We found that tetrachords appear more frequently in Hisaishi and Sakamoto's music and in Japanese folk songs. Additionally, the more predictable a melody is the more frequently inside-tetrachords appear, while the more unpredictable a melody is the more frequently outside-tetrachords appear. Furthermore, we showed which tetrachord contributes to distinguish different musicians and music genres by mapping the frequency rate obtained into a feature space using PCA and linear discriminant analysis.
著者
河合 剛
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.74, pp.41-48, 1996-07-26
被引用文献数
1

米国の音声言語研究を支えてきたDARPA(国防省先端研究プロジェクト庁)。研究分野の黎明期から一貫して潤沢な資金を提供し続け、研究開発の動向を陰に陽に左右してきた。米国の音声言語処理技術の基盤はDARPA予算によって築かれたといって過言でない。日欧の研究者の多くも研究動向の指針を米国に求めたため、DARPAの影響力は直接的・間接的に世界に及んだ。ところが、技術が成長したいま、音声言語処理は基礎研究の域を脱したとDARPAが判断し、したがって研究予算も削減すると言ってきた。米国の研究所は、今後、民間活力を用いて生き残れるのか。新たな研究課題とは何か。DARPAの功罪と今後の展望を、DARPA研究サイトの元メンバーが痛烈に斬る。DARPA has supported spoken language research in the US since the field's inception. Research sites benefitted from years of ample funding while DARPA charted the course for R&D. DARPA's sphere of influence spread worldwide as non-US researchers carefully noted US trends. However, improvements in spoken language system performance convinced DARPA that research had passed the basic stage. Research sites were asked to obtain non-DARPA funding, particularly from the private sector. Can US research sites survive without DARPA? What are prime R&D targets in the post-DARPA era? A former member of a DARPA site illustrates how DARPA helped and hurt the research community, and describes coming trends.
著者
西本 卓也 嵯峨山 茂樹 藤原 扶美 下永 知子 渡辺 隆行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.11, pp.55-60, 2007-02-10
被引用文献数
4

我々は、視覚障害者と対面朗読者の音声対話を分析し、弁当屋のメニューから食べたいものを選ぶ対話が「分類や検索による大まかな選択」「お気に入りリストへの追加」「お気に入りリストからの最終決定」によって構成されていることなどを確認した。そこでこの知見を活かして、音声合成とキーボードで操作可能なウェブシステムを試作した。実装には XHTML を動的に生成するために PHP および PostgreSQL を使用し、ウェブアクセシビリティの配慮も行った。また、各ページをシンプルにして、一度に一つの操作だけを行わせるようにした。視覚障害者による評価実験の結果、既存のウェブサイトと比較して本システムが使いやすく有効であるという評価が得られた。A prototype lunch delivery Web system for the visually impaired was developed based on the analysis of human (the visually impaired who wants to order a lunch) to human (the sighted who helps the visually impaired to decide lunch by reading aloud lunch menu) dialog. Based on these analysis, a prototype system was developed, which consists of three steps: 1) rough selection (candidate items are roughly selected based on categories), 2) selection of favorites (favorite items are selected from candidate items and stored in the system), and 3) final selection (one item is selected with detailed information for each item). To generate XHTML document dynamically, PHP and PostgreSQL were used. The evaluation of the prototype system is performed by the visually impaired only with synthesized speech and key-board. The results showed that our system is effective and easy to use.
著者
森山 剛 小沢 慎治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.33-38, 2008-02-08
被引用文献数
1

自分の声で好みの歌唱様式を有した歌声を作るには,歌唱を訓練し,歌唱様式を学び,さらに歌声を発する恥ずかしさを克服しなければならず,非常に困難である.そこで,歌詞を朗読するだけで,その音声と楽譜を入力とし,ユーザの声の話者性を損なわずに,自由な歌唱様式を有した歌唱を合成する手法を提案する.本手法により,楽譜さえあれば,どんな曲でも,いつでもどこでも何度でも,自分の声で歌わせることができ,さらにリズムや旋律を工夫してジャズや演歌といったジャンルを演出したり,他人の歌い方を真似したり,音痴を修正したりできる.楽譜を編集する過程で,歌唱様式をどう実現すれば良いか学習でき,また自分が歌う前に,自分が歌った場合のイメージを掴むこともできる.聴取実験により,朗読音声の話者性や歌詞の音韻性を損なわず,歌唱様式の基本となる演奏記号を合成できることが示された.We propose a method of transforming reading speech of lyrics to singing voice. It is capable of realizing favorite style in the transformation, i.e., a specific genre and an expression. Generating singing voice by one's own voice requires the person to train singing, to learn how to realize singing styles, and to overcome hesitation in singing out. The proposed method only requires the user to read the lyrics. It then allows the user to generate singing voice of any music, anytime, anywhere, and any number of times. The user can edit the music for generating a specific singing style, mimicing other's style of singing, and correcting the problematic portion of his or her singing. The user can also learn how to realize a specific style in singing and hear how it sounds when he or she sings on his or her own. Experimental results demonstrated that the proposed method was able to synthesize a comprehensive set of basic indications such as crescendo in the synthesized singing holding the voice quality of the speaker.
著者
丸目 雅浩 南角 吉彦 酒向慎司 徳田 恵一 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.247-252, 2007-12-21

音声合成の需要の高まりにより,多様な話者性や発話スタイルを持った音声の合成が望まれている.しかし,このような音声の合成には,話者や発話スタイルに応じてモデルを用意する必要があり現実的ではない.そこで,少量の学習データにより,多様な話者性を持つ音声の合成を可能とする混合ガウスモデル(GMM)に基づく声質変換が提案されている.しかし,従来の GMM に基づく声質変換では,尤度最大化(ML)基準によりモデルパラメータを点推定しているため,学習データが十分に得られない場合,モデルの推定精度が低下する可能性がある.そこで,GMM に基づく声質変換に変分ベイズ法を適用し,ベイズ基準による声質変換を行う.提案法では,ML 基準に比べて,声質変換の音質と話者性において,品質向上が確認でき,推定精度の高いモデルが得られることがわかった.It is desired a technique for synthesizing speech with various speaker characteristics and speaking styles, by increasing the demand of speech synthesis. However, a large amount of training data is required to construct the system for each characteristics and speaking styleVoice conversion based on Gaussian Mixture Model (GMM) is one of techniques which can solve this problem. GMM is estimated from a small amount of training data based on the Maximam Likelihood (ML) criterion. However, the GMM based voice conversion technique still suffers from the overfitting problem due to insufficient training data and a point estimation of the ML criterion. To improve this problem, we applied the varational Bayes method to the GMM based voice conversion. In experiments, it was confirmed that the proposed technique improves the quality of converted voice, because of its higher generalization ability than the conventional ML based approach.
著者
宇藤陽介 南角 吉彦 季晃伸 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.103-108, 2007-12-20

声質変換とは,ある話者が発した音声を別の話者が発したかのような音声に変換する技術であり,任意の音声を合成する音声合成システムよりも少量の学習データで実現可能である.従来の声質変換ではスペクトルをガウス混合モデル (Gaussian Mixture Model; GMM) でモデル化し,非線形に変換する手法が広く用いられる.しかし,F0 の変換に関してはスペクトルとは独立に線形変換が用いられることが多かった.これは,F0 が有声区間のみで定義されており,無声区間では値を持たず,系列全体を通常の連続分布や離散分布でモデル化することが容易ではないためである.本報告では,多空間上の確率分布 (Multi-Space Probability Distribution; MSD) に基づく GMM (MSD-GMM) を用いたスペクトルと F0 の同時変換手法を提案する.提案法では,F0 の非線形変換が可能になるだけでなく,有声から無声や無声から有声への変換も可能となる.さらに本研究では,F0 の時間方向の変動をモデル化するために MSD-HMM への拡張を検討する.
著者
伊藤 慶明 木山 次郎 関 進 小島 浩 張建新 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.73, pp.17-22, 1995-07-20
参考文献数
17
被引用文献数
18

本稿では、人間と計算機の新しい対話形態,インタフェース・システムの提案を行う。本システムでは、マルチユーザによる音声とジェスチャのマルチモーダルな入力が可能で、これらの認識技術を統合することによって音声とジェスチャの同時かつ相補的な理解を実現する。さらに、システムの理解内容を合成音声と画像を通してリアルタイムにかつ漸次的にユーザにフィードバックすることによって、複数の人間と計算機との知的で、かつ豊かなコミュニケーションを実現する。本方式は、一種の思考の支援と考えることもでき、これを次世代のインタフェースと位置付ける。我々は、このインタフェースを実現するために、frame?wise and realtime spotting技術を用いて、複数話者による音声とジェスチャの同時認識/理解リアルタイム統合インタフェースシステムを試作した。This paper proposes a new type of dialog system, or interface system between men and computers. This system allows multi-modal input of speech and gesture by multiple users, and enables simultaneous and complimentary understanding for speech and gesture by integrating both recognition technologies. It realizes intellectual and affluent communication between multiple users and computers by real-time and gradual feedback of understanding state in the system, using synthesis speech and graphics image. The system can be thought as a novel interface system as it gives users a sense of reality and unity. We realized such a real-time interface system that integrates speech understanding and gesture understanding by multiple users.
著者
緒方 淳 後藤 真孝 江渡 浩一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.11, pp.41-46, 2007-02-09
被引用文献数
7

本稿では、ポッドキャストを検索できる Web サービス「PodCastle」を実現するための音声認識手法について述べる。ポッドキャストでは多様な内容が異なる環境で録音されており、多数の未知語を含む新たな話題も多いため、従来の音声認識システムで適切に認識するのは困難だった。この問題を解決するために、本研究では、Web 2.0 によって得られる様々なデータを用いることによって、継続的に、音声認識システムを改善していく。具体的には、各ポッドキャストの内容に応じた言語モデルの話題適応、Web 2.0 のサービスを通じた単語発音の自動獲得、PodCastle 上でのユーザが音声認識誤りを訂正した結果を用いた未知語の学習等を試みた。実際にポッドキャストを対象とした認識実験を行い、性能向上に有効であることを確認した。This paper describes speech recognition techniques that enable a web service "PodCastle" for searching podcasts. Most previous speech recognizers had difficulties dealing with podcasts because they include various contents recorded in different conditions and new topics with many out-of-vocabulary words. To overcome such difficulties, we continuously improve speech recognizers by using information aggregated on the basis of Web 2.0. For example, the language model is adapted to a topic of the target podcast on the fly, the pronounciation of unknown words is obtained from a Web 2.0 service, and out-of-vocabulary words are automatically acquired by analyzing user corrections of speech recognition errors on PodCastle. The experiments we report in this paper show that our techniques produce promising results for podcasts.
著者
加藤 圭介 野沢 和典 山下 洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.124, pp.223-228, 2003-12-18

本報告では、日本人英語学習者の英文発話における韻律を自動評定する手法について述べる。学習者と英語母語話者の発話を比較し、基本周波数、パワー、発話長の類似度を算出して韻律パラメータとする。2つの発話を比較する際には単語や単語境界部などさまざまな比較単位ごとに比較し、比較単位による結果の違いを考察した。また、基本周波数とパワーに関してはパターン距離などの従来手法に加え、回帰曲線近似誤差を用いた評定手法を提案し、評定結果の妥当性を検証した。さらに、複数の韻律パラメータを組合せ、学習者発話の韻律を評定するモデルを作成した。In this paper, we describe techniques to score prosody of sentence speech uttered by English learners. Based on the comparison between learners' speech and native speaker's speech, we make prosodic parameters by calculating the similarity of learners' speech and native speaker's speech about F0, power and duration. The comparison is carried out every comparison unit, such as a word, a word boundary, and so on. We try a new scoring measure in terms of approximate error of regression fitting, as well as pattern distance, for F0 and power. Moreover, we make a multiple regression model for scoring prosody of English learners' speech by combining two or more prosodic parameters.
著者
峯松 信明 西村多寿子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.127, pp.211-216, 2005-12-22

音声コミュニケーションには,話者・環境・聴取者に起因する音響歪みが不可避的に混入する。これら静的な非言語的歪みを数学的にモデル化し,そのモデルの上で,音響歪みを表現する次元を完全に失った音声の物理表象を提案している[1]。個々の音声事象の絶対的な物理特性は一切捨象し,音声事象間の関係のみを,全ての二事象間差異(コントラスト)の集合,即ち,ある幾何学構造として抽出する。この新しい物理表象は,構造音韻論の物理的実装として解釈されている。事象間のコントラストのみを捉える処理は,音楽の相対音感に類似した処理と考えられるが,本稿ではその提案表象を,言語学,心理学,言語障害学,神経生理学,脳科学,及び音楽学の観点から再度考察,解釈する。その中で,音素を音響空間内で定位する従来の方法論の是非について検討する。In speech communication, acoustic distortions are inevitably involved by speakers, channels, and listeners. In our previous study, these distortions were mathematically modeled, and on that model, a novel speech representation was proposed where the distortions cannot be observed [1]. Absolute properties of speech events are completely discarded and only their interrelations are extracted as a full set of phonic differences or contrasts. The set is mathematically equal to a certain geometrical structure. This new representation is considered as physical implementation of structural phonology. Extraction of contrasts between two events is viewed as a process similar to hearing music, i.e., relative pitch. In this paper, the new representation is reconsidered from viewpoints of linguistics, psychology, language disabilities, neurophysiology, brain science, and musicology, Here, the conventional paradigm where a phoneme is localized absolutely at a certain point in an acoustic space is also reconsidered.
著者
永井 明人 石川 泰 中島 邦男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.73, pp.23-28, 1995-07-20
被引用文献数
7

本稿は、自由発話に対する意味理解と、これを音声認識と統合する手法を述べる。まず、概念を理解単位(概念素)とし、発話を意図の伴った概念素列とみなす意味理解の枠組を提案する。次に、概念素仮説の言語尤度を評価しながら、文節ラティスから概念素を島駆動探索する概念素探索法を述べる。さらに、文意仮説の効率的な探索のために、概念素の脱落を許容して初期文意仮説を高速に得、これより想起される概念素予測知識を利用して脱落区間を再探索し、初期文意仮説を修復する手法を提案する。ホテル予約の自由な質問を対象とした音声理解実験の結果、第一位で92%の良好な理解率を得た。また、高速化手法により理解性能の低下なしに数倍?十倍の効率向上を達成した。This paper describes integration of speech recognition and semantic interpretation for spontaneous speech understanding. First, we propose a framework of semantic interpretation where a concept is a unit of semantic understanding and an utterance is regarded as a sequence of concepts with an intention. Secondly, we describe a basic search method which detects concepts from a phrase lattice by island-driven search evaluating linguistic likelihood of concept hypotheses. Moreover, an improved method to efficiently search for meaning hypotheses is proposed. This method quickly generates initial meaning hypotheses allowing deletion of concepts. Then, the initial meaning hypotheses are repaired by re-searching for missing concepts using prediction knowledge associated with the initial meaning hypotheses. Experimental results show that 92% of understanding rate has been acheived, and that the improved method has realized efficient search without reducing its performance.
著者
榎 将功 皇甫 美華 大田健紘 柳田 益造
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.313-318, 2007-12-21
参考文献数
9
被引用文献数
2

音声認識に,認識対象として未登録の略語を使えるようにする方法を提案している.略語の生成はいくつかの規則に従うことが知られている.本研究では,それらの規則により元の表現(原型)から簡略後の表現(略語)を自動的に生成することを考えている.規則の適用により略語の候補を多数生成し,各候補に対し,どの規則を適用して生成したか,略語の言語モデルに整合しているか,Web 上での使用頻度は多いか,の3つの基準により略語らしさとしてのスコアをつけ,上位からいくつかの候補を選んで認識対象辞書に加えるという方略を提案している.提案法により原型 40 語から略語候補を生成し,各原型につき略語らしい候補を 10 語ずつ選んだところ,約 80%の略語をカバーできている.音声認識システムに提案法を応用したところ,認識語彙の増大による認識率の低下を十分上回る略語認識ができるようになっている.Proposed is a method to generate abbriviated forms of Japan expressions to accept them as words to be recognized even in case they are unregistered for speech recognition. It is known that there are several rules to generate abbriviated forms from original expressions. Proposed is automatic generation of abbriviated forms from an original expression. The proposed method generates several tens or hundreds of candidates of an abbriviated form by applying possible generation rules to the original expression. A scoring system to prune the candidates for each original expression is designed on the following three criteria; which generation rule is adopted, accordance with the language model of abbriviation, and appearance frequency on the Internet. Candidates having score ranked within the top N are registered into the word list for recognition. To evaluate the method, the proposed method is used to generate candidates of abbriviated forms from 40 original expressions, and the system choses 10 candidates for each original expression referring to the score. About 80% of the correct abbriviations were included in the top 10 candidates. The output of the proposed method is fed to a speech recognition system yielding recognition improvement sufficiently compensating decrease of recognition rate due to enlargement of vocabulary size.
著者
大須賀智子 堀内靖雄 市川 熹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.58, pp.1-6, 2003-05-27
被引用文献数
3

本研究では、音声の韻律情報のみを用いた文の構造の推定手法について検討した。推定に用いる韻律パラメータとして、今回は新たに、先行するアクセント句末1モーラにおける局所的な韻律的特徴を用いて文の木構造の生成を試みた。ATR503文を対象として実験を行った結果、部分木のレベルで約76?%の推定精度を得ることができた。これは従来の、後続音声区間にまたがる、より大局的なパラメータを用いた場合に対し、約4?%の低下にとどまり、ほぼ遜色のない結果が得られた。すなわち、先行する音声区間の局所的な韻律情報のみから、後続の音声区間への係り受け関係がある程度推定可能であることが確かめられた。この結果から、局所的特徴も文構造の理解へ貢献しており、韻律情報が我々人間の実時間および実環境での発話理解を支えるために、頑健な構造となっている可能性が示唆されたといえる。In this study, we introduce a method of estimating the syntactic tree structure of Japanese speech from the F0 contour and time duration. We formed the hypothesis that we can infer a syntactic relation with the following part by listening only to the leading part of speech, and we proposed an estimating method which uses only the local prosodic features of the final part of the leading phrase. We applied the method to the ATR 503 speech database. The experimental results indicated an estimation accuracy of 76\% for the branching judgment for each sequence of three leaves. We consider this result to be fairly good for the difficult task of estimating a syntactic structure that includes a future part by using only local prosodic features in the past, and also consider prosodic information to be very effective in real-time communication with speech.
著者
綿貫 啓子 外川 文雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.73, pp.79-84, 1995-07-20
参考文献数
8
被引用文献数
9

対話の進行とともに、人の感情は、気分が乗ってきたり退屈したりとさまざまに変化し、その感情が表情や音声に表われる。このような感情の変化をとらえることを目的に、本稿では、二人の対話過程で、いわゆる話が乗ってきて気分が高まる様子を、マルチモーダル対話データベースを基に解析した。その結果、気分の高まりとともに、音声や動作に以下の変化が現われることを確認した:)二人の発話量(時間)が等しくなってくる、)二人の発話の重複が多くなり、一方、沈黙の時間が減少してくる、)音声の平均ピッチが上昇する、)頭の縦振りとアイコンタクトが相補って現われる、)まばたきの間隔が長くなる。また、二人の感情の度合が同期し、協調しながら対話が進んでいくことが確かめられた。When communicating with computers, users may display a variety of emotions in faces and voices. Thus, in realizing more flexible and natural communications between humans and computers, we consider that computers need to know about their user's emotional state: whether the user is interested or not. In this paper, we describe some features which would convey the level of interest in the process of conversations: 1) the proportion of speaking time becomes nearly equal; 2) the proportion of time for utterance overlap increases, whereas the proportion of time for non-speaking (silence) becomes lower; 3) the mean F0 increases; 4) nodding and eyecontact serve to acknowledge the partner in a complementary way; and 5) the time intervals between blinks become longer. Further, we describe that there seems to be a shared level of interest between the two subjects in order to perform coordination.
著者
北添徹郎 金星一 市来 知幸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.14, pp.25-30, 1999-02-05

奥行き知覚のメカニズムとして知られているステレオビジョン神経回路方程式を用いて音声認識への適用を試みる。数年前ラインマンおよびハーケンにより提案され、最近本研究室で発展させられた競合と協調によるステレオビジョン神経回路を用いる。我々は、各音韻の特徴量が脳に蓄積されており、入力音声がそれらと比較され、音声認識を行なっていると考える。本研究では24セットの音韻のシミラリティを求め、その上位5つの音韻のみを最終的な候補として、ステレオビジョン神経回路方程式にかける。その結果、216単語データベースにおいては78.05%、240単語データベースにおいては78.94%という音韻の認識率が得られ、HMMによる認識率、各71.56%と72.37%を上回る結果を得た。The stereo vision neural-net equations, known to process a depth perception, are applied to speech recognition. We use a recently developed three layered neural net (TLNN) equations with competition and cooperation for stereo vision. We use a Gaussian PDF to represent memorized data of each phoneme in our memory, and the similarities of an input phoneme with respect to the memorized ones were calculated. The TLNN equations are applied to the similarities with best 5 hypotheses among 24 kinds of phonemes. The average rates for speaker independent recognition are 78.05 % for 216 word database and 78.94 % for 240 word data base by TLNN equations which are compared to 71.56 % and 72.37 % by Hidden Markov Model(HMM), respectively.