著者
駒谷 和範 上野 晋一 河原 達也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.75, pp.59-64, 2003-07-18
参考文献数
12
被引用文献数
7

各ユーザに応じた協調的な応答を行うユーザモデルについて述べ,これを実装した音声対話システムの評価実験について報告する.従来のユーザモデルの研究では,ユーザの知識に重点を置いたものや典型的なユーザを想定したものがあるが,我々はより包括的なユーザモデルを提案する.具体的には,システムに対する習熟度,ドメインに関する知識レベル,性急度の3つの次元を定義する。これらのモデルは,決定木学習により自動的に得ることができる.実際の対話データを用いたユーザモデルの判別実験では,3つの次元それぞれに対して妥当な判別制度を得た.これらのユーザモデルに基づく対話戦略を,我々の研究室で開発している京都市バス運行情報案内システムに実装した.評価実験により,各ユーザに適応した協調的応答が,熟練したユーザに対する対話時間を増加させることなく,初心者に対して適切なガイダンスとなることが示された.We address appropriate user modeling in order to generate cooperative responses to each user in spoken dialogue systems. Unlike previous studies that focus on user's knowledge or typical kinds of users, the user model we propose is more comprehensive. Specifically, we set up three dimensions of user models: skill level to the system, knowledge level on the target domain and the degree of hastiness. Moreover, the models are automatically derived by decision tree learning using real dialogue data collected by the system. We obtained reasonable classification accuracy for all dimensions. Dialogue strategies based on the user modeling are implemented in Kyoto city bus information system that has been developed at our laboratory. Experimental evaluation shows that the cooperative responses adaptive to individual users serve as good guidance for novice users without increasing the dialogue duration for skilled users.
著者
全 炳河 大浦圭一郎 能勢 隆 山岸 順一 酒向慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.301-306, 2007-12-21

近年,隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
安井 耕平 野口 忠繁 大田健紘 レアンドロ・ディ・ペルシア 柳田 益造
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.59-64, 2006-12-21
参考文献数
6

周波数領域独立成分分析に基づくブラインド音源分離において、近傍周波数ビンを連結することにより分離対象となる周波数ビンの関する分離行列を安定して求める周波数領域ICAの検討を行っている。Di Persiaらの提案したパーミュテーションフリーICAでは、全周波数ビンで分離行列が共通になってしまい、周波数ビン毎に最適な分離行列を生成することになっていないという問題があった。そこで、本研究では、対象とする周波数ビンの前後数本の周波数ビンを連結することによって、周波数特性の方向依存症を考慮し、かつパーミュテーションも抑えることのできるICAとしてMulti-Bin ICAを提案している。動作解析には反射による周波数特性がどの方向も同一に近い場合と、強制的に周波数特性が方向によって異なるようにした部屋で行った。前者ではパーミュテーションフリーICAとMulti-Bin ICAに差はなかったが、後者においてMulti-Bin ICAの有効性を確認できた。Proposed is a processing scheme of Blind Source Separation(BSS) employing frequency-domain Independent Component Analysis(f-ICA) to a vector consisting of time series of adjacent frequency components, contrasting with Parmutation-Free ICA(PF-ICA) applying f-ICA to a vector consisting of all the frequency components. The proposed method is named Multi-Bin ICA(MB-ICA). It can treat directionality of frequency characteristics of the sound field, while PF-ICA proposed by Di Persia cannot treat directionality of frequency characteristics. Its performance is confirmed by comparing with those of ordinary ICA and PF-ICA for room environments of almost equal directionality and of forcedly asymmetrical directionality in the room characteristics.
著者
根本 雄介 秋田 祐哉 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.73, pp.63-68, 2006-07-08
被引用文献数
6

広範な話題からなる会議音声を話題単位に自動分割し,得られた話題ごとに単語辞書と言語モデルの適応を行う手法を提案する.音声認識結果に対してPLSA(Probabilistic Latent Semantic Analysis)を適用して,話題を表す特徴ベクトルに変換し,その類似度に基づいて話題分割を行う.そして,話題ごとに類似したテキストを収集して,単語辞書を更新するとともにN-gram 言語モデルの適応を行う.衆議院予算委員会の音声で評価を行った結果,提案手法により単語辞書・言語モデルの適応を行うことで,ベースラインから未知語率を約25%,テストセットパープレキシティを約9%削減することができた.We address a vocabulary and language model adaptation method based on topic segmentation of meetings that include various topics. The ASR result is segmented based on the similarity among the feature vectors that were extracted with PLSA (Probabilistic Latent Semantic Analysis). The relevant texts (newspaper articles) for each topic segment are retrieved. The vocabulary and N-gram language model are updated with this retrieved texts. Experimental evaluation on a meeting of the Lower House Budget Committee showed that the proposed model adaptation based on topic segmentation reduced the test-set OOV rate and perplexity.
著者
谷口 徹 大川 茂樹 白井 克彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.121, pp.87-92, 2002-12-16
参考文献数
4
被引用文献数
1

音声・音楽識別は音響コンテンツへのインデキシングやその前処理など、様々な応用が期待されており、現在多くの手法が提案されている。本研究では特に音声・音楽識別に用いられる特徴量に注目し、先行研究で有効性を示されている4種の特徴量の評価を行った。評価には性別やBGMの有無、歌声と楽器音の重畳などを考慮し設定した7種のクラスによりラベル付けをしたデータセットを用い、各特徴量の誤認識の傾向を分析した。Speech/Music discrimination has been studied for various applications such as automatic indexing of audio data. In this paper, we focus on four acoustic features examined in related studies and evaluate these features with audio data sets classified into seven audio classes.
著者
岩野 裕利 杉田 洋介 松永 美穂 白井 克彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.16, pp.105-112, 1997-02-07
参考文献数
6
被引用文献数
3

人間の対話において、身振り、表情、頭の振りと言った視覚情報は、より円滑な対話を行なう上で重要な情報である。より自然なヒューマンインターフェースを構築する上でも、音声だけではなく、これらの視覚情報をどのように利用していくかが大きな課題となっている。本研究では、人間同士の対面および非対面の対話を比較することにより、視覚情報の中でも頭の振りに注目し、対話における役割に関して分析を行なった。分析の結果、頭の振りには、情報伝達手段として利用される頭の振りと、そうでない2種類の頭の振りがあることを確認した。また頭の振りが対話における発話のタイミングと関係していることが示唆された。In practical conversations, visual information such as gesture, facial expression and head movement clearly makes the progress of conversation much smoother and more natural. Therefore, in the more natural human interface that can use multiple modalities, visual information becomes as important as voice information. In this research, we analyzed conversations between face-to-face and conversation through telephone line. It seems that there are two types of head movements, depending on whether it is intended to give an information to his partner or not. Also head movements seem to have a correlation between the timing of utterances.
著者
任福継
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.73, pp.43-48, 2006-07-07
参考文献数
3
被引用文献数
5

感情計算と知能技術は感性と理性の対立から高いレベルでの統一体になっていると認識しているが,従来の音声・言語などの外観情報だけのモデルでは,人間の感情をモデル化し伝えることは到底不可能である。我々は人間の心的な特性に着目し,話者の感情測定モデル及びコンピュータの感情シミュレーションモデル,即ち,人間感情の認知及び機械感情の創生ができる,汎用的なエージェントを開発している。この講演では言語・表情・音などの外観情報と我々の提案した心的状態遷移ネットワークに基づく人間感情の認知について述べる。さらに,発表では本稿で記述しきれなかった最新成果・アプリケーション実例も紹介する。Many people still seem to have strong resistance toward interacting with machines in many business fields such as terminal devices and medical care systems. We focus on human psychological characteristics to develop general-purpose agents that can recognize human emotion and create machine emotion. We comprehensively analyze brain waves, voice sounds and picture images that represent information included in emotion elements of phonation, facial expressions,and speech usage. We analyze and estimate many statistical data based on the latest achievements of brain science and psychology in order to derive transition networks for human psychological states. We establish a speaker word model for researching computer simulation of psychological change and emotional presentation,developing emotion interface,and establishing theoretic structure and realization method of emotion communication. In the talk,a new approach for recognizing human emotion based on appearance information and Mental State Transition Network will be described and some new results for the project will be given.
著者
松井 淳 加藤 直人 小林 彰夫 今井 亨 田中 英輝 安藤 彰男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.108, pp.211-216, 1999-12-20
参考文献数
7

ニュースのリアルタイム字幕作成を目的とした音声認識には一般のタスクと違う特徴がある.すなわち発声される可能性のあるテキスト,あるいはそれに類似したテキストを放送の前に入手できる特徴である.著者らはこの点に着目して認識性能を向上させる手法をいくつか研究してきた.これらは計算処理量の比較的重いものと軽いものがあり,軽い処理ほど放送直近の原稿を利用できる.本稿では,比較的処理の重い「言語モデルの適応化手法」,処理の軽い「放送直前の原稿を利用したn-gram確率の動的計算法」,および「未知語自動登録法」を使った実験を報告し,これらを組み合わせて利用することで単語正解精度が89.92%から92.36%に改善されたことを示す.Although it is almost impossible to guess what will be uttered beforehand in general speech recognition task, we can do this with high possibility in news dictation task thanks to the manuscripts that well hold the words to be uttered by announcers. In this paper, we describe three ways of utilizing such news manuscripts and will show empirically that they greatly helped improving the news recognition rate.
著者
鷲田 基 五十嵐 健夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.11, pp.115-120, 2007-02-10

現在、複雑なタスクを管理するために紙や PAD にタスクを記録することが行われている。こうしたタスク管理はタスクを文書化するための手間がかかることが欠点である。一方、デスクトップ上ではウィンドウの管理が行われているが、これはデスクトップ上で行われている「もう一つのタスク管理」であると我々は考えている。しかし従来のウィンドウ管理ツールではタスク管理ツールとしての側面があまり考慮されてこなかった。本稿では、文書によるタスクとウィンドウの両方を一元管理する手法を提案する。本システムでは、開いているウィンドウの情報をタスク管理に利用することにより、タスクを文書化する手間を省き、タスクの全体像を見やすくすることができる。また、開いているウィンドウに関するタスクの表示や閉じたウィンドウの復帰を行うこともできる。ウィンドウとタスクを一元管理することは、従来のタスク管理とウィンドウ管理の双方の面で有効であると期待される。We propose a new method to manage both of written tasks and windows. People manage many tasks by writing notes into the paper or PDA in the present days. Problems of those managing methods are the efforts to write down their tasks. On the other hand, open windows are managed on the PC environment. We think that managing windows are another kind of task management, but conventional window management tools were not designed well as task management tools. Our system can reduce the effort to describe tasks and show easy overview by using informations of windows. It can also make users easy to remember tasks about the windows and recover closed windows. We believe managing both of tasks and windows in an integrated fashion is effective for both of task management and window management.
著者
塚原 渉 Nigel Ward
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.64, pp.57-62, 2000-07-14

音声認識の実用化に伴い,応用分野もビジネス用途から娯楽・教育用途にまで広がってきた.娯楽・教育用途ではインタラクション自体の魅力が大切だが,その際,従来システムのような不自然な応答は致命的となる.そこで,人間同士の友好的な会話では相手の状態を推測しながら応答を微妙に変えていく点(レスポンシブネス)に着目し,機械との対話におけるレスポンシブネスの有効性を検討した.学習ゲーム形式の会話(山手線駅名当てクイズゲーム)において,システムの確認発話応答あいづち(はい,うんなど)の使い分けルールを実装し,被験者13人に対して音声認識をWizard of Oz方式で行う会話実験を行った.その結果,コーパス中の出現比率であいづちを使い分けるよりも印象が良くなることが分かった.As advances in speech recognition enable applications in entertainment, education and so on, users will demand that the interactions themselves be pleasant. Human-human interaction is pleasant in part because of the feeling that the other person is really listening and caring. That is, the other person picks up cues regarding the speaker's internal state at each moment and responds appropriately. To emulate this ability, a system must be able to infer the user's internal state and to use this information when choosing responses. We implemented this "responsive" ability for a memory game, using prosody and context to determine choice of acknowledgements. Most users did indeed prefer interacting with the responsive system, when preferences were measured using suitably sensitive techniques.
著者
翠 輝久 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.73, pp.69-74, 2006-07-08
参考文献数
5
被引用文献数
7

音声が主要なモダリティである環境において,自然言語で記述された文書を知識源として,インタラクティブにユーザに情報を提供する枠組みを提案する.これは,音声ガイドのように,システム側から一方的に情報を提示するのではなく,ユーザ・システム双方が対話の主導権をとりながら,対話的に情報検索・提示するものである.そのために,ユーザ主導の検索・質問応答(pull)モードと,システム主導の提示(push)モードを用意して,ユーザの状態に応じてこれらを切り替える.検索・質問応答モードでは,漠然とした検索要求のみではなく,特定の情報・事実を求める質問応答機能も実現する.また,提示モードにおいてシステム側から,ユーザにとって有用な話題を知識ベースの中から動的に選択して(質問形式を含めて)提示する.以上の枠組みを京都の観光案内システムとして実装し,京都大学博物館の企画展示において運用を行っている.We propose a speech-based interactive guidance system based on document retrieval and presentation. Unlike conventional audio guidance systems, we prepare two modes of information retrieval (pull mode) and presentations (push mode), and switch them according to the user's state. In the information retrieval mode, the user can ask questions about specific facts in the documents. In the presentation mode, the system actively provides information the user would be interested in. The system was implemented as a sightseeing guidance system and is running since June 2006 at the special exhibition of the Kyoto University Museum.
著者
吉原 亨 蔦木圭悟 高橋 弘太
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2008, no.123(2008-SLP-074), pp.233-238, 2008-12-02

できるだけ聞き落としを生じることなく,時間的な効率を上げて音声再生を行うためには,個々の音声に対して最適な再生速度を決定するための指標が必要となる.本稿では,この問題に関して得られた 2 つの成果について発表する.第一の成果は, 2 つの異なる狭帯域エネルギの時間変化に着目した話速推定法を提案し,正規化した誤差で 16% の推定精度で話速推定が行えることを示したことである.第二の成果は,通常発話の音声と高速発話の音声を,それぞれ極めて速い話速に話速変換した結果を観察し,高速発話を話速変換した音声が,より調波構造の乱れが少ないことを示したことである.本稿は,我々で製作している話速バリエーション型音声データベース (SRM-DB) を用いて行った.我々は本研究を SRV-DB の有効な利用法の一例として発表する.
著者
伊藤 敏彦 大谷耕嗣 肥田野 勝 山本 幹雄 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.1994, no.109, pp.49-56, 1994-12-15
被引用文献数
5

自然な発話を許す音声対話システムでは、ユーザの発話を表現する文法が書き言葉と比べてかなり緩くなり、しかも間投詞、言い直しなどの現象も多く生じるため、音声認識率はどうしても低くなる。受理可能な文を多くすることと認識率はトレードオフであるためどこかで妥協する必要があり、このため話者の入力文と受理可能な文にはギャップが生じる。また自然な発話を音声認識部だけで対処することは現在のところ無理があり、誤認識された入力文にも対処することが意味理解部に要求される。本報告では以上の問題点に関する検討のための基礎データを集めることを目標に行なった3つの実験について述べる。一つ目は音声対話システムを使用するユーザへの事前の説明を変えることによって対話システムへのユーザの入力がどのように変化するかを調べた。二つ目はユーザの入力文数に対して異なり単語数がどのように変化するかを調べ、あるタスクでどの程度の単語数が必要かを検討した。三つ目の実験は音声認識部によって生じた誤認識を人間はどれくらい原文と意味的に同じ文に訂正できるかである。It is difficult to recognize and understand spontaneous speech, because spontaneous speech has many phenomena of ambiguty such as omissions, inversions, repairs and so on. Since there is a trade-off between the looseness of linguistic constraints and recognition precision, the recognizer cannot perfectly recognize the completely free speech of the user on the current art of speech recognition. Therefore some problems arise. First problem is that there are gaps between sentences a dialog sysytem can accept and sentences the user wants to say. Second problem is that the semantic analyzer has to understand sentences with misrecognition that human never utters. In this paper, we describe three experiments concerning the problems of spontaneous speech dialog systems and their results. First experiment is about effects of a prior explanation of the system's limit on the speaker's utterance. Second experiment is about the relationship between the number of different words and the number of inputs. Third experiment is about recovery strategies of human to understand correct meanings of misrecognized sentences.
著者
伊藤亮介 駒谷 和範 河原 達也 奥乃 博
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2003, no.14(2002-SLP-045), pp.107-112, 2003-02-07

ロボットとの音声対話をより円滑にするためには,言語的情報だけでなく話者の心的状態感情を取り扱う必要がある.本研究では,親近感,喜び,困惑の感情を対象として,WOZ 方式によって収集された子供とロボットとのリアルな対話データを用いて,韻律的特徴に基づく分析・判別を行う.特に,対話であるという状況を考慮して,それらの特徴量の発話ごとの変化量や,発話間の時間間隔を利用する.これにより,事前学習を必要としないリアルタイムな判別を可能にする.判別にはSVM 及びC により学習した決定木を用い,困惑で,喜びで,親近感での判別精度を得た.この感情判別を導入した音声対話機能を実ロボットRobovie に実装し,動作の確認を行った.
著者
マルタ ルーカス 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.73, pp.19-24, 2006-07-07

運転者のブレーキ操作や発話内容から,運転中の危険な状況を検出する手法について検討した.ブレーキに基づく検出では,ペダル踏力とその時間変化の2次元ヒストグラムを用いて,通常と分布が異なる箇所を検出した.発話に基づく検出では,危険な状況で発すると考えられる単語を音声の書き起こしテキストから検出した.CIAIR対話音声・運転行動信号コーパスのうち,人間と対話中のテータ438名分に対して,人手でビデオ映像と運転行動信号を確認しながら危険なシーンのラベル付けを行った結果,計25箇所の危険なシーンが見つかった.これらのうち,ブレーキ信号,あるいは発話内容に何らかの異常を伴うシーンがそれぞれ17箇所,11箇所存在した.ブレーキ,発話それぞれに基づいて検出を行った結果,80%の正解シーンを検出するために必要な誤検出数はブレーキで473シーン,発話で33シーンであった.また,Wozシステム,音声対話システムの対話中のデータについても同様の実験を行った.We introduce a method for automatically detecting potentially dangerous situations in motor vehicle traffic using driving behavior signals. Our proposed approach focuses on changes in a driver`s behavior, which we detect through brake pedal operation as well as driver speech. Experiments were performed using a large multimedia driving database obtained from the CIAIR project at Nagoya University. We analyzed data from 438 drivers who interacted verbally with a human operator. In eleven of the 25 situations we hand labeled as potentially hazardous, drivers uttered expletive words to express nagative feelings. In 17, sudden and intense compression of the brake pedal was observed. For the detection of 80% of these 17 scenes, the proposed method based on 2D-histograms of brake pressure and its dynamics also detected 473 false positives. As for the other eleven scenes, using our lexicographical speech feature-based method, a detection rate of 80% was achieved for 33 false alarms. We also present an analysis of data recorded while drivers interacted with a machine and a Wizard of Oz system.
著者
山田 寛康
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.47(2007-SLP-066), pp.13-18, 2007-05-24

本稿では日本語固有表現に対してShift-Reduce法に基づく抽出法を提案しIREX日本語固有表現抽出タスクを用いてその有効性を検証する. 提案手法はShift-Reduce法に基づくことで 文頭から順に固有表現の語境界推定後にその種類を推定するという自然な解析が実現できる. また日本語における形態素単位解析では 形態素語境界と固有表現の語境界が異なる場合の誤抽出が問題となる. この問題に対し 提案手法は簡単な拡張アクションを追加することで 入力文全てを文字単位に解析することなく対処できる. CRL固有表現抽出データを用いた五分割交差検定による評価実験では 文頭から文末に向かって部分的に文字単位解析する効率的な方法で 0.88 のF値を得た.
著者
原 直 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.167-172, 2006-12-21
被引用文献数
5

実際の利用環境に近づけた被験者実験を行うために、WWW 経由でカスタマイズ可能な音声対話システム及びそのデータ収集システムを構築した。本システムのユーザは自分のPCに音声認識システムをインストールし利用する。不特定多数のユーザに対応するために、インターネット上に用意されたリモートサーバ上で各ユーザが本システムのカスタマイズすることが可能である。さらに、本システムを利用する各ユーザのPCで収録された音声データはインターネットを通してリモートサーバに送信される。本システムを利用することにより、複数のユーザによる実環境下における音声認識システム利用時データを収集することが可能になる。本論文では実際に本システムを使用したフィールドテストを行いデータ収集及び分析を行った。インターネット上に公開して2ヶ月間で59時間のデータが収集され、そのうち約5時間41分のデータ(11351個)が音声区間として検出されていた。認識実験の結果、検出された音声データからシステムに対して発話されていた音声データ4716発話を評価用データとした場合の単語正解率は66.0%であり、各ユーザ毎に教師無し MLLR 適応を行うことで単語正解率は70.5%に向上した。We developed a user customizable speech dialogue system and a framework for automatic speech data collection in field experiments over the Internet. Users can download and install the speech dialogue system onto their own PCs and customize the system on a remote server for their own use. The speech dara recorded on their PCs are transferred to the remote server through the Internet. The system enables us to collect speech data spoken by many users with wide variety of acoustic environments. During a two-month field test, we obtained 59 hours of recorded data including 5 hours and 41 minutes detected as speech, which corresponds to 11351 speech segments. The word correct rate for the 4716 speech utterances spoken to the dialogue system was 66.0%, which was improved to 70.5% after applying unsupervised MLLR for each user.
著者
榎本 美香
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.1999, no.64(1999-SLP-027), pp.17-24, 1999-07-23

2人以上の対話において、1人の話し手が話し終わる前に次の話し手が話し出す、ということはよく起こる。しかし、従来のターンテイキング理論では、現在の話し手が話し終わってがら次の話し手が話すという枠組みしか設けられておらず、これでは現実に生じている現象を説明しきれない。そこで、日本語対話コーパスで2人以上の話者が同時に存在する箇所を調べ、その特徴ごとに以下3つの分類を行った。(1)現在の話し手が次の話し手に話すよう誘引しているもの(2)あいづちのように挿入句的なもの(3)次の話し手が現在の話し手を遮るもの、である。これらの分類を基に、ターンテイキング理論の補足理論としての介入発話モデルを構築した。
著者
鹿野 清宏 Cincarek Tobias 川波 弘道 西村 竜一 李晃伸
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2006, no.107(2006-SLP-063), pp.33-38, 2006-10-20

筆者らは生駒市北コミュニティセンターに、音声情報案内システム「たけまるくん」を設置して、2002年11月から4年間運用している。最初の1年半あまり、精力的にシステムの改良を行い、現在では、子供を中心とする多くの市民に利用されている。このシステムは、大語彙連続音声認識プログラムJulius を用いた4万語あまりの大語彙の連続発声認識を中心に構築された本格的な自由発話による音声情報案内システムである。また、入力された音声や雑音はすべて収録され、とくに最初の2年間は書き起こしが終了している。この2年間の書き起こしデータを用いることによるシステムの性能の向上の予備評価についても報告する。このたけまるくんの成果を活かして、今年の3月末に、奈良先端大の近くの近鉄の駅「学研北生駒」に、独立した2つの音声情報案内システム「キタちゃん」と「キタロボ」を設置した。駅は60dBAと、コミュニティセンターに比べて、騒音レベルが10dB程度高く、厳しい音声認識の利用条件である。「キタちゃん」は、たけまるくんと同様にCGエージェントが応答する型で、タッチパネルも併用できる大人向けのシステムである。「キタロボ」は、ロボット型インタフェースで、どちらかというと子供向きのシステムである。この両システムの運用も6ヶ月間になるが、良好に動作している。たけまるくんからこの両システムへのポータビリィティについても述べる。
著者
酒井邦嘉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.124, pp.265-268, 2003-12-19

言語に規制があるのは、人間が規則的に言語を作ったためではなく、言語が自然法則に従っているためである。「人間に特有な言語能力は、脳の生得的な性質に由来する」、と半世紀にわたって主張してきたのは、言語科学のノーム・チョムスキーであった.しかし、生得説を裏付けるための証拠が未だ不十分なため、チョムスキーの革命的な考えは、多くの誤解と批判にさらされている。言語の脳機能の分析は、実験の積み重ねとMRI技術などの向上によって、飛躍的な進歩を遂げてきた。本総説では、言語の問題に脳科学から挑むアプローチの一例として、脳の文法処理に関して最近得られた知見を中心に紹介する。In this article, I will focus on our results of a CREST project of JST concerning language processing in the human brain, thereby updating recent advances made by functional neuroimaging and magnetic stimulation studies of language. First, I will provide the first experimental evidence that the neural basis of sentence comprehension is indeed specialized. Specifically, our recent functional magnetic resonance imaging (fMRI) study has clarified that the human left prefrontal cortex is more specialized in the syntactic processes of sentence comprehension than other domain-general processes such as short-term memory. Second, the distinction between explicit and implicit syntactic processes will be clarified, based on our fMRI studies that elucidate syntactic specialization in the left prefrontal cortex The current direction of research in the brain science of language is beginning to reveal the uniqueness of the human mind.