著者
原 直 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.167-172, 2006-12-21
被引用文献数
5

実際の利用環境に近づけた被験者実験を行うために、WWW 経由でカスタマイズ可能な音声対話システム及びそのデータ収集システムを構築した。本システムのユーザは自分のPCに音声認識システムをインストールし利用する。不特定多数のユーザに対応するために、インターネット上に用意されたリモートサーバ上で各ユーザが本システムのカスタマイズすることが可能である。さらに、本システムを利用する各ユーザのPCで収録された音声データはインターネットを通してリモートサーバに送信される。本システムを利用することにより、複数のユーザによる実環境下における音声認識システム利用時データを収集することが可能になる。本論文では実際に本システムを使用したフィールドテストを行いデータ収集及び分析を行った。インターネット上に公開して2ヶ月間で59時間のデータが収集され、そのうち約5時間41分のデータ(11351個)が音声区間として検出されていた。認識実験の結果、検出された音声データからシステムに対して発話されていた音声データ4716発話を評価用データとした場合の単語正解率は66.0%であり、各ユーザ毎に教師無し MLLR 適応を行うことで単語正解率は70.5%に向上した。We developed a user customizable speech dialogue system and a framework for automatic speech data collection in field experiments over the Internet. Users can download and install the speech dialogue system onto their own PCs and customize the system on a remote server for their own use. The speech dara recorded on their PCs are transferred to the remote server through the Internet. The system enables us to collect speech data spoken by many users with wide variety of acoustic environments. During a two-month field test, we obtained 59 hours of recorded data including 5 hours and 41 minutes detected as speech, which corresponds to 11351 speech segments. The word correct rate for the 4716 speech utterances spoken to the dialogue system was 66.0%, which was improved to 70.5% after applying unsupervised MLLR for each user.
著者
塩出萌子 小泉悠馬 伊藤克亘
雑誌
第76回全国大会講演論文集
巻号頁・発行日
vol.2014, no.1, pp.495-496, 2014-03-11

長期アニメは、幅広い世代で認知度が高く、楽しまれている。視聴者は、そのような作品の各登場人物役の声優の演技や、性格や感情表現方法に固定概念を持つ。そのため、声優が交代した際、声質や表現方法などの差異が、視聴者に違和感を与え、番組離れの原因となる。本論文では、新声優の声を旧声優の声に変換する声質変換器の作成を目指す。変換対象は、同じ人物を演じている声優とし、目標話者(旧声優)の特徴量を元話者(新声優)の対応する特徴量と変換する。変換には、学習データとしてパラレルコーパスを用いる。しかし、声優を対象とするため、必ずしもパラレルデータが用意できるとは限らない。そこで、自由にデータを作成できる中間話者を定義し、元話者、目標話者それぞれとのパラレルデータ作成のため、同じ発話内容の音声データを中間話者で作成する。
著者
小泉 悠馬 伊藤 克亘
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J98-D, no.3, pp.492-500, 2015-03-01

連続励起振動楽器の演奏音の音量変化を,音量記号などに起因するベースラインの大局的変化であるダイナミックスと,発想記号などに起因する局所的変化であるアーティキュレーションに分解する手法を提案する.ダイナミックスとアーティキュレーションの生成過程をそれぞれ和分プロセスと遷移型自己回帰モデルで表現し,遷移型線形動的システムを用いて音量軌跡を分解する.評価実験では,MIDIを用いて作成した人工データと,プロ奏者とアマチュア奏者の音量軌跡の分解実験を行った.人工データの分解実験では分解の標準絶対誤差が1.06dBであり,MIDIでのメゾピアノからメゾフォルテの音量差約4dBよりも小さい誤差で分解できることを確認した.また実演奏音の分解実験では,演奏技術による2要素のバリエーションやばらつきなどの演奏/習熟度解析が行えることが示唆された.
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
河原 達也 住吉 貴志 李晃伸 武田 一哉 三村正人 伊藤彰則 伊藤 克亘 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.100, pp.37-42, 2001-10-19
参考文献数
20
被引用文献数
24

連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。
著者
北山 広治 後藤 真孝 伊藤 克亘 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.58, pp.67-72, 2003-05-27
被引用文献数
5

本稿では,非言語情報の一つである言い淀み(有声休止)を活用し,ユーザが音声認識を開始してほしいタイミング(発話区間の始端)を,言い淀むことによって明示的に指示できる「音声スタータ」という新しい音声インタフェースを提案する.通常の音声認識システムは,発話区間の切り出し後に音声認識を行うため,雑音下での切り出しミスが認識精度に悪影響を与え,頑健性を保証することが困難であった.我々は,有声休止が雑音下でも頑健に検出できると考え,常に有声休止の途中から音声認識を開始することで,信頼性の高い発話区間の検出方法を実現することを試みる.様々な雑音環境下で4種類の発話区間検出方法を比較実験した結果,音声スタータは他の検出方法に比べ,特に低SNR(10dB以下)の条件で高い性能が得られた.In this paper we propose a speech interface function, called speech starter, that enables noise-robust endpoint (utterance) detection for speech recognition. When current speech recognizers are used in a noisy environment, a typical recognition error is caused by incorrect endpoints because their automatic detection is likely to be disturbed by non-stationary noises. The speech starter function enables a user to specify the beginning of each utterance by uttering a filler with a filled pause, which is used as a trigger to start speech-recognition processes. Since filled pauses can be detected robustly in a noisy environment, reliable endpoint detection is achieved. Experimental results from a 10-dB-SNR noisy environment show that the recognition error rate with speech starter was lower than with conventional endpoint-detection methods.
著者
白勢 彩子 原 直 藤村 浩司 伊藤克亘 武田 一哉 板倉 文忠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.124, pp.253-258, 2003-12-19

本研究は,音声対話システムの利用に必要な知識,技術の学習過程および問題点を明らかとし,これらがシステム評価に与える影響を検討するため,実システムを用いた観察実験を行ない,それによって得られた結果に基づいて,ユーザの達成度とアンケートによるシステム評価との関連性に関する基礎的な議論を行なった.分析の結果,発話認識率と発話数とに相関がある評価項目はほとんどなく,むしろ,会話満足度,システム理解度と多く関連することが明らかとなった.従来,認識率とシステム評価とがよく一致することが知られているが,他の観点からの評価も考慮する必要があることが示唆された.今後は,被験者数を増大させて条件を統制した実験を行ない,より詳細な議論をしていきたい.This study aims to describe user problems and process of learning skill in using spoken dialogue systems and to reveal how these impact on the evaluation of the system usefulness. For this aim, we designed a new dialogue system and carried out a field test for a large number of subjects and asked them to evaluate the usefulness of the system. The results showed that the evaluation of the system did not correlate a recognition rate but user satisfaction and comprehension. This suggested that the spoken dialogue systems should be evaluated in terms of user factors. Controlled experiments are needed to discuss in detail.
著者
大石康智 後藤 真孝 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.113, pp.3-8, 2006-10-27
被引用文献数
5

メロディを歌っても,曲名を読み上げても検索可能な楽曲検索システムを提案する.このシステムは,歌声と曲名の読み上げ音声(朗読音声)を自動識別するため,ユーザはシステムの入力モードを切り替えるのではなく,入力音声の発話様式を切り替えるだけで,シームレスに楽曲を検索することができる.これまでに我々が提案した音声識別器を実装し,歌声と識別されれば,ハミング検索手法によってメロディから曲を検索する.一方,朗読音声と識別されれば,音声認識によって書き起こされた曲名から曲を検索する.大規模な歌声データベースを利用して提案システムの評価実験を行った結果,歌声と朗読音声の自動識別性能は96.1%であった.さらに,検索キーのハミング検索,音声認識によって100曲中10位以内に正解の曲が含まれる平均検索率は,それぞれ50.5%と96.7%であった.We propose a music retrieval system that enables a user to retrieve a song by two different methods: by singing its melody or by saying its title. To allow the user to use those methods seamlessly without changing a voice input mode, a method of automatically discriminating between singing and speaking voices is indispensable. We therefore designed an automatic vocal style discriminator and built a music retrieval system that retrieves a song by query-by-humming for singing voice or by dictating the song title by automatic speech recognition (ASR) for speaking voice. Experimental results with a large music database built for singing research show that our system is able to discriminate between singing and speaking voices with 96.1%. The average retrieval rates of correct songs in the top 10 of 100 songs by query-by-humming and ASR for song titles are 50.5% and 96.7% respectively.