著者
青木 輝勝 西村 竜一 須田 修司 木屋 善夫 坂本 琢也 野村 和男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.25, pp.61-66, 2004-03-05
被引用文献数
2

近年、AV符号化技術やブロードバンド技術等の進化ならびにP2P通信等の新しい通信形態の普及に伴い、コンテンツ流通は世界中で急速に普及しつつある。しかしながら、これらは同時にコンテンツ管理&保護をより困難にしていることも事実である。本稿では、安全かつ利便性の高いディジタルコンテンツ流通を行うにあたっての最も基本となるコンテンツ識別技術(コンテンツID付与技術)を概観するとともにその問題点を指摘する。続いて、新しいコンテンツ管理&保護のためのコンテンツ識別技術としてCoFIP(content FInGerprinting)技術を提案する。このCoFIPは既存のコンテンツ識別技術の問題のほとんどを解決することができることに加え、従来混乱であったP2P通信のような通信形態においても威力を発揮する。Recently, content distribution is widely being spread all over the world with the progress of AV coding technologies, broadband networking technologies and the advent of new communication methods such as P2P content delivery. However, it is true that this situation poses more difficulties in management and protection of content. In this paper, we firstly review current content identification technologies and indicate the problems of them. After that, we propose an innovative copyright protection technology called "Content Fingerprinting" that offers solution to all the problems in current identification technologies and realizes management & protection of digital content even in possible new communication styles including P2P distribution.
著者
中村 敬介 西村 竜一 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.632, pp.13-18, 2004-01-22
被引用文献数
9 1

実環境における音声インタフェースでは笑い声や咳などのユーザが意図しない入力や周囲の雑音による誤入力,あるいは笑い声などの通常の発話と区別すべき入力が多く存在する.本研究では,音声/雑音,および通常発話/不要音を識別する頑健な音声対話システムを目指し,そのためのGaussian Mixture Model(GMM)を用いた環境雑音および不要発話の識別法およびその効果について報告する.生駒市北コミュニティセンターの公共音声情報案内システム「たけまるくん」におけるフィールドテストで収集したユーザ発話を複数のクラスに分類し,それぞれの音響的特徴をGMMに学習させて音声識別実験を行ったところ,各クラスごとでの識別率は128混合GMMで平均80.6%,音声/非音声の識別率は96.3%を達成し,GMMによる識別が可能であることが確認できた.音声/非音声の識別においても,2クラスのGMMよりも雑音の種別ごとにGMMを用いるほうが高い識別性能を示した.また,Cepstral Mean Subtraction(CMS)を行わないことで,クラスごとの識別性能を平均3.2%向上できることを確認した.
著者
西村 竜一 三宅 純平 河原 英紀 入野 俊夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.103, pp.13-18, 2007-10-19
被引用文献数
16

提案する w3voice システムは、Web システムに対して、音声による入力インタフェースを拡張する。Java アプレットと CGI プログラムから構成し、通信プロトコルには、HTTP POST method と Redirection response を応用した実装を行った。このため、事前に特別な専用プログラムのインストールを要求せず、普段の Web ブラウザをそのままで使うことができる。また、音声認識、対話、ボイスチェンジャ、掲示板等の音声 Web アプリケーションを作成し、Web サイトで公開した。本研究は、家庭や職場等での音声インタフェースの利用環境を調べることを目的とする。そのために、利用者からの入力発話を蓄積し、分析をはじめている。約7ケ月で一日 47.6個、合計で 8 412 の入力を得ることができた。本稿では、提案システムの概要を述べ、収集データの発話時間及び SNR に関する調査結果を報告する。We have developed a speech input method called "w3voice" to build practical and handy voice-enabled Web applications. It is constructed using a simple Java applet and CGI programs comprising free software. The mechanism of voice-based interaction is developed on the basis of raw audio signal transmissions via the POST method and the redirection response of HTTP. We have released a number of w3voice applications on our website for public uses. The system also aims at organizing a voice database obtained from home and office environments. We have succeeded in acquiring 8,412 inputs (47.9 inputs / day) over a period of seven months. This report describes an overview of the proposed system, and results of analyzing collected inputs to observe utterance lengths and SNR.
著者
西村 竜一 梶田 将司 武田 一哉 板倉 文忠 鹿野 清宏
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827837)
巻号頁・発行日
vol.42, no.3, pp.605-613, 2001-03

本論文では, Webベースのオンライン教育環境に音声入力機能を加えるWebSPEAC(Web SPEech Acquisition for Courseware)Systemを提案する.これまで, Webベースオンライン教育環境では, 音声を出力する教材の作成は可能だったが, 音声入力のできる教材やコミュニケーションツールの提供はできなかった.本システムは, (1)Webブラウザには音声入力機能のみを提供し, 音声を用いるアプリケーションプログラムはWebサーバ上で一括管理するので保守性が高い, (2)クライアント側は, 簡単な初期設定のみで利用できる, (3)サーバプッシュを利用してWebでの音声入力インタフェースを実現している, という特徴があり, 音声を用いたインタラクティブなWebベースのオンライン教材の作成を可能にする.また, 本システムの応用例として, Webベースの入力音声分析ソフトウェア, 音声確認システム, 受験者認証システムを作成した.このうち, 音声入力部分について, 入力音声分析ソフトウェアを利用してファイルアップロードによる従来システムとの比較実験を行った.その結果, 本システムはステップ数, 誤りステップ数, タスク完了時間において操作コストを削減できることが確認できた.
著者
西村 竜一 西原 洋平 鶴身玲典 李晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.35-40, 2003-02-07
被引用文献数
6

生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムでは,大語彙連続音声認識を利用した一問一答形式の音声対話により,同センターや生駒市に関する案内を行うことが可能である.実用化を目指した本システムは,2002年11月6日からセンター内に常設され,開館時は誰でも自由に愛嬌のあるエージェントとのコミュニケーションを楽しむことができる.また,システムの改良に必要な対話記録を実際の運用を通じて収集し,発話内容の書き起こし等のデータの整備もすすめている.本稿では,主に本システムの構成および発話音声データ収集の状況について報告する.また,成人による比較的クリーンな発話をテストセットにした本システムの評価実験を行い,84%の単語正解率と70%の応答正解率を確認した.We implemented a practical speech guidance system for public use. It is called ``Takemaru-kun'', and located daily at the entrance hall of Ikoma Community Center to inform visitors about the center and around Ikoma city via speech human-machine interface and funny animating agent of Takemaru. This system aims to promote a field test for robust speech recognition in practical environment, and to collect actual utterance data in the framework of human-machine speech dialogue. The system has been running everyday since November 6, and a large number of user utterances have been collected. Classification and transcription of the data is also undertaken. This paper reports the outline of this system and current status of the data collection. In a recognition experiment with extracted samples of adult voices, word accuracy of 84% and answer rate of 70% was obtained.
著者
入野 俊夫 河原 英紀 西村 竜一 高橋 徹 津崎 実 津崎 実 高橋 徹 ロイD. パターソン
出版者
和歌山大学
雑誌
基盤研究(B)
巻号頁・発行日
2006

初期聴覚系における「寸法・形状知覚理論」の検証とその応用を行った。そのための心理実験を実施し、理論を支持する実験結果を数多く得た。fMRI実験によって、音節情報処理の脳内部位を推定し、寸法・形状情報処理の部位特定のための制約条件を与えた。「ガンマチャープ聴覚フィルタ」等のモデルをさらに洗練化した。 高品質音声分析合成法STRAIGHTの性能改善や、劣化音声の知覚実験と自動音声認識実験の対比も行い、音声知覚の計算理論構築の足がかりを得た。
著者
今井 新悟 伊東 祐郎 中村 洋一 酒井 たか子 赤木 彌生 菊地 賢一 本田 明子 中園 博美 西村 竜一 篠崎 隆宏 山田 武志 家根橋 伸子 石塚 賢吉 ファム ターンソン
出版者
筑波大学
雑誌
基盤研究(A)
巻号頁・発行日
2010

日本語学習者のための日本語スピーキング能力をコンピュータ上で自動採点するテストシステムを開発した。インターネットを介して受験でき、時間と場所の制約を受けずに受験が可能である。音声認識技術を使い、受験者の発話から特徴量を抽出することにより、自動採点を実現している。項目応答理論を用い、受験者の能力に適合した難しさの問題を出題するアダプティブテストとなっており、少ない問題数で能力の判定ができる。
著者
李晃伸 山田 真士 西村 竜一 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.103, pp.49-54, 2004-10-22
被引用文献数
8

機械に対するユーザの自然な実発話の収集と統計的な分析のために,我々は音声情報案内エージェントシステム「たけまるくん」を公共施設に設置し,2004年5月までの19ヶ月間で約17万発話を収集・整備した.本稿では現在のシステム構成,収集データの分析結果および雑音・不要音棄却実験の結果を報告する.全体のおよそ 30%が雑音などの非音声入力であった.音声入力のうち81%が有効発話であり,残りは背景会話・無意味な発声・不明瞭で聞き取れない発声・発話断片・オーバフローなどの応答不能な無効発話であった.これらの無効発話に対して,入力長とGMMに基づく雑音・不要音棄却の性能を評価した.1か月分8 248個のデータで実験した結果,雑音・息・咳・笑い声などの非音声入力は99%棄却でき,叫び声や遠隔で発声された背景会話もある程度棄却できることが分かった.一方で,発話断片やドメイン外発話については音響的特徴からの弁別は難しかった.In order to collect user's actual utterances to a speech dialogue system on real situation, we have located a speech-oriented information guidance system called ``Tekemaru-kun'' at a public civil hall, and collected 177,789 inputs via 19 months' operation. This paper will report the current system architecture, details of collected data and experimental results of invalid input rejection. As a result, non-voice (noise) inputs occupies about 30% of total input, and 81% of voice inputs are valid inputs. The rests are invalid voice inputs that includes background speech, incomprehensible voice, obscure speech, fragmented speech, level overflow and so on. Rejection of those invalid inputs has been examined based on input length threshold and GMM-based identification. Experiments on 8,248 inputs of one month showed that almost all of noise and non-verbal inputs such as breath, coughing and laughter can be rejected successfully, and distant background speech and shouts were also discriminative, whereas out-of-domain utterance, obscure speech and fragments cannot be detected only by the acoustic property.
著者
西村 竜一 竹本 浩典 加藤 宏明
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.108, no.333, pp.19-24, 2008-11-27

頭部伝達関数は,一般に外耳道をふさいだ状態における,音源から外耳道入口までの特性で与えられる.しかし,実環境と同じ聴感を与えるためには,頭部伝達関数に加えて鼓膜面での音圧が実環境での場合と十分近くなるように制御する必要がある.そこで,ヘッドホン受聴時の補正を,外耳道閉そく状態における外耳道入口の信号で行った場合の,外耳道入口と鼓膜面で実現される特性について検討を行った.先ず,HATSを用いて,外耳道入口と鼓膜面での音圧比を,複数のヘッドホンを用いて測定したところ,必ずしも一定ではないことが確認された.さらに,ヘッドホン聴取時の音響伝搬路の簡単なモデルを想定し,計算機シミュレーションで同様の検討を行った.その結果,共振周波数とその倍音において影響が大きいことが確認された.さらに,実際のヒトが聴取した場合にも同様の傾向が見られるかを調べるため,純音マスキングの聴取実験を行った.その結果,ヘッドホンの違いによる影響の周波数依存性が一部に観測された.
著者
西村 竜一 秋田 祐哉 須藤 克仁 大庭 隆伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.444, pp.61-66, 2006-12-15

本稿では,2006年9月アメリカ合衆国ピッツバーグにおいて開催された国際会議Interspeech2006-ICSLPにおける研究動向を報告する.サーベイ二部構成の後編にあたる本編では,音声認識システム,言語モデル,言語処理関連,音声対話,音声検索,要約,翻訳等のトピックを中心に報告する.
著者
西村 竜一 秋田 祐哉 須藤 克仁 大庭 隆伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.106, no.442, pp.61-66, 2006-12-15

本稿では,2006年9月アメリカ合衆国ピッツバーグにおいて開催された国際会議Interspeech2006-ICSLPにおける研究動向を報告する.サーベイ二部構成の後編にあたる本編では,音声認識システム,言語モデル,言語処理関連,音声対話,音声検索,要約,翻訳等のトピックを中心に報告する.