著者
鹿野 清宏 Cincarek Tobias 川波 弘道 西村 竜一 李晃伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.107, pp.33-38, 2006-10-20
被引用文献数
9

筆者らは生駒市北コミュニティセンターに、音声情報案内システム「たけまるくん」を設置して、2002年11月から4年間運用している。最初の1年半あまり、精力的にシステムの改良を行い、現在では、子供を中心とする多くの市民に利用されている。このシステムは、大語彙連続音声認識プログラムJulius を用いた4万語あまりの大語彙の連続発声認識を中心に構築された本格的な自由発話による音声情報案内システムである。また、入力された音声や雑音はすべて収録され、とくに最初の2年間は書き起こしが終了している。この2年間の書き起こしデータを用いることによるシステムの性能の向上の予備評価についても報告する。このたけまるくんの成果を活かして、今年の3月末に、奈良先端大の近くの近鉄の駅「学研北生駒」に、独立した2つの音声情報案内システム「キタちゃん」と「キタロボ」を設置した。駅は60dBAと、コミュニティセンターに比べて、騒音レベルが10dB程度高く、厳しい音声認識の利用条件である。「キタちゃん」は、たけまるくんと同様にCGエージェントが応答する型で、タッチパネルも併用できる大人向けのシステムである。「キタロボ」は、ロボット型インタフェースで、どちらかというと子供向きのシステムである。この両システムの運用も6ヶ月間になるが、良好に動作している。たけまるくんからこの両システムへのポータビリィティについても述べる。We have been developing and operating "Takemaru-kun" spoken information guidance system in North Community Center in Ikoma city these four years. Takemaru-kun, which is composed of large vocabulary continuous speech recognition program Julius and Q-A database, is now widely used by Ikoma citizens, mainly children. All inputs have been recorded and the first two-year data are annotated. Takemaru-kun system improvement based on two year annotated data is also reported. Takemaru-kun was successfully ported to two spoken information guidance systems in Gakken North Ikoma railway station in the end of this March. These two systems are CG agent type "Kita-chan" , and robot type "Kita-robo". The portability of acoustic models from Takemaru-kun to Kita-robo is also discussed.
著者
飯田 朱美 相川 清明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.69, pp.141-146, 2005-07-16
被引用文献数
6

我々は、ベクトル空間法を用いて、計測した多変量な情報を話し手聞き手の双方にとって理解しやすい表現に置き換えて出力する手法を提案した。そして、評価システムとして、温度や湿度などの気象情報を「さわやか」「うっとおしい」などの、日常我々が気象情報を他者に伝える時に使う感覚的に理解しやすい表現に置き換えて出力するシステム、Weather Reporterを実装した。本システムは、二つの表現を接続して出力することができるが、これまでは全ての組合せを順接接続詞、「そして」で接続していたため、共起するとは考えにくい組せの排除や語義に応じた接続詞の使い分けが課題となっていた。そこで、実際にはどのような接続形態が在り得るのかをアンケート調査を行って調査し、二つの表現のテンプレートベクトル間の非類似度を求め、複数の候補から接続詞を自動決定する手法を考案し、実装し、評価したので報告する。In previous research, we proposed an approach for describing multivariate environmental information as it might be expressed by humans using easy to understand day-to-day phrases. In its prototype, the Weather Reporter took meteorological data as input and produces expressive phrases such as "refreshing" or "muggy" as output. This system could also conjoin two phrases such as "hot and muggy", but the first version of the reporter could only assign the conjunction 'and' regardless of the meaning of the two phrases. Hence, we conducted a survey to find out how people typically conjoin two meteorological phrases. This paper reports on the findings from the survey and also proposes a new dissimilarity measuring algorithm that automatically assigns the conjunction additive 'and' or adversative 'but' to conjoin two sentences depending on the meanings of the two phrases that have been selected by the system to be combined.
著者
加藤 恒夫 河井 恒 宇都宮 栄二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.107, pp.39-44, 2006-10-20
被引用文献数
2

携帯電話アプリケーションの日本語入力を支援するため、2006年1月よりコンシューマ向けに分散型音声認識のサービスを開始した。携帯電話マイクに入力された音声は携帯電話機上で音響特徴量に変換され、パケット通信で音声認識サーバに送信される。携帯電話が音声認識サーバから受信した認識結果は画面表示されるため、ユーザは瞬時に認識結果を確認し、認識を誤った場合にも誤認識箇所を部分的に修正することができる。音声認識に対するストレスや不安を軽減するため、携帯電話機上の特徴量抽出処理をリアルタイム化し応答時間を数秒に短縮するとともに、誤認識の可能性が高い場合に「声が大きすぎます」、「雑音が大きすぎます」、「発声が早すぎます」と3種類のアラームを発生する機能を追加した。また、ネットワークのコンテンツに日々追加される新しいキーワードを認識できるようにするため、サービスを停止せずに単語辞書・文法を更新する機能を開発した。To assist Japanese text input for applications on cellphones, a distributed speech recognition service for consumer applications was launched in January 2006. Speech input to a microphone is processed for acoustic feature extraction on the cellphone, then the features are transmitted to a speech recognition server by packet exchange, and recognition results received from the server are displayed on the screen. The recognition results are confirmed by sight, and partial correction of misrecognized words is possible if any. To reduce stress and unfamiliarity to speech recognition technology, response time from the server was shorten to a few seconds by real-time acoustic feature extraction on the cellphones, and warning function of three alarms, "Voice too loud ", "Noise too loud", and "Uttered too early", were added to the client software. Moreover, a function of reloading new grammars and lexicons through a nonstop operation is equipped on the speech recognition server to enable frequent update of grammars and lexicons for network contents.
著者
安田 宜仁 堂坂浩二 相川 清明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.11, pp.73-78, 2001-02-02
被引用文献数
6

本稿では,音声対話システムにおいて,効率良く確認を行う対話制御法を提案する.本手法はタスク毎にルールを記述することを必要としないので,タスクの変更の際の手間を減らすことができる.従来,自動的に効率的な確認手順を決定する方法では,システムが受け付け可能なユーザ要求の種類は1つに限定されていた.本手法では,ユーザ要求の種類が複数ある(たとえば,予約,確認,取消など)ような場合でも利用可能である.本手法は各ユーザ要求確認終了までの期待ターン数と,理解状態に対するユーザ要求の確率分布を利用して,対話終了までのやりとりの回数を小さくするような確認手順を選択する.計算機上で模擬ユーザとの対話による実験を行い,タスクに依存したルールを記述しなくても効率的に動作することを示す.This paper describes a dialogue control method for efficient confirmatation in spoken dialogue systems. This makers easier to change a task, because our method doesn't need to write task-dependent rules for each task manually. In previous works, there was a limitation that the system can accept only one type of user query. Our method can apply to systems which can accept more than one type of user query(e.g. reservation, confirmation, cancellation, etc.). Our method computes the expected number of turns that are taken to confirm each user query and the probability distribution of user queries estimated from system's understanding state. Based on the expected number of turns and the probability distribution, our method chooses the confirmation procedure that keeps the number of the whole dialogue turns small. Experiments with a simulated user model show that our method works efficiently without task-dependent rules.
著者
今井 むつみ
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.124, pp.259-264, 2003-12-19

一般には大人がひとつひとつのことばを丁寧に繰り返し教え込むことによって子どもはことばを学習していくと、考えられているかもしれない。しかし、実際には子どもはことばがその指示対象の少数の事例(多くは一事例)と結び付けられるのを観察するだけである。一事例に対する漠然とした指差しから発話されたことばの意味を推論することは論理的には不可能なことである(Goodman 1983; Quine 1960)。それにもかかわらず,子どもは、2?6歳の間に、一日平均6語、多い時期には10語も新しいことばを覚えると言われている。本講演では名詞と動詞に焦点をあて、子どもがアクションイベントを観察中に新奇な名詞あるいは動詞を聞いたとき、子どもがイベントのどの側面に新奇語をマッピングし、どのような知識と方略を用いてそれらの語の意味を推論し、他の事例にその語を般用していくのか、その知識や方略が発達的にどのように変わるのか、などについて議論する。It is logically impossible to induce meanings of words based on the observation of a limited number of instances. In spite of this problem of induction, young children map new words to their meanings instantly, and learn new words at a rate of 6-10 words a day. In this talk, I present the results from a series of experiments that show how young children infer meanings of novel nouns and verbs. I then explore the mechanism underlying young children's lexical acquisition.
著者
吉田 由紀 中嶌 信弥
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.14, pp.35-40, 1999-02-05
被引用文献数
6

規則音声合成技術を用いて,MIDI対応の歌声合成システムを開発した.Standard MIDI Fileを利用して入力された楽譜から,各音符のピッチと時間長を自動的に抽出後,付与された歌詞を音素系列に分解,波形編集型音声合成法により歌声を合成,その後,MIDIと同期を取りBGMと合成された歌声を同時に出力する.本システムの特徴としては,単に音符に歌詞を当てはめて歌声を出力するだけではなく,歌詞入力時に,パワー調整や声質変換などの情報を付加することができ,歌声を自由に演出できる点があげられる.さらに,歌詞を付与するトラックを複数用意することで,ハーモニやデュエットなども実現可能とした.We developed a singing voice synthesis system, CyberSingers, based our high-quality text-to-speech synthesis (TTS) technology. Given a standard Musical Instrument Digital Interface (MIDI) file as input, the pitch and duration of each musical note in the input file are extracted automatically. The phoneme series of the typed-in lyrics are passed to the CyberSingers TTS module to synthesize a singing voice. After synthesizing vocal parts of a score, CyberSingers generates an intermediate data that includes timing information. By referring to this timing informed by a MIDI player, CyberSingers supports several options such as power modulation, a voice changer function, and multi-vocal feature. CyberSingers adds a new function to desktop-music technology.
著者
李晃伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.307-312, 2007-12-21
被引用文献数
7 1

大語彙連続音声認識エンジン Julius は 2007年 12月にバージョン ver. 4 がリリースされた.7年ぶりのメジャーバージョン更新となる ver. 4 では,内部構造のモジュール化およびソースの全面的な再構成が行われ,可搬性と柔軟性が大幅に向上された.その結果,エンジン本体がライブラリ化された他のアプリケーションに組み込めるようになったほか,コールバック・プラグイン等の外部との連携の仕組みが整備され,機能の拡張や構成の変更が容易に行えるようになった.言語モデルも単語 N-gram および文法を単一バイナリで同等に扱えるようになり Julian は Julius に統一された.さらに,複数の言語モデルと音響モデルを任意に組み合わせて,1エンジンで並列認識を行うマルチデコーディングも可能となった.また,基本性能についても拡張と強化が行われた.言語モデルとして孤立単語認識が新たに追加されたほか,4-gram 以上の任意長 N-gram への対応、ユーザ関数による外部言語制約の組込み、GMM-based VAD およびデコーダベース VAD、confusion network の生成など大幅な機能強化が行われた。性能は従来バージョンと同等を維持しており、かつメモリ量の削減も行われている。The new version 4.0 of large vocabulary continuous speech recognition engine "Julius" has been released at December 2007, as a major version up from version 3.0. An anatomical analysis and data stcuture re-organization has been accomplished for the whole codes to improve its modularity and flexibility. Its improved structure now enables Julius to be compiled as a external library to be incorpolated into various user applications. A simple callback API and plugin facilities are newly built to be controlled directly and lively from outer applications, which enables easy but tight integration with other applications. Also, grammar-based recognizer Julian has been incorpolated into Julius and the N-gram and grammar can be treated at the same executable. Furthermodre, It supports fully multi-decoding using multiple LMs, AMs and their arbitral combinations. It now supports long N-gram (N unlimited), user-defined LM function, GMM-based and a newly proposed decoder-based VAD, confusion network generation, and many other new functions. The memory requirement has also been improved, while keeping the same accuracy.
著者
中川 哲治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.47, pp.19-24, 2007-05-24
被引用文献数
1

本稿では,ギブスサンプリングを用いた係り受け解析手法を提案する.既存の解析手法ではしばしば変数間に独立性を仮定しており,利用可能な素性が限られているという問題があった.提案手法では,依存構造木全体をモデル化する確率分布を考えることで,依存構造木中の兄弟ノードに関する関係や,子ノードと祖父母ノードに関する関係などの,文中の任意の素性を利用することができる.複数のコーパスで実験を行った結果,提案手法は既存手法と比較して同程度以上の解析精度を持つことを確認した.In this paper, we present a method for dependency parsing with Gibbs sampling.Existing methods for dependency parsing often assume independence among variables, and have limitations in available features.Our method uses a probabilistic model of a whole dependency tree, and allows us to use arbitrary features in a dependency tree, which include relations between sibling nodes and relations between a child and its grandparent nodes.Experimental results on multiple corpora showed that the performance of our method was competitive with other state-of-the-art methods.
著者
中川 聖一 大谷耕嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.52, pp.13-18, 1997-05-26
被引用文献数
1

一般に話し言葉の文法の構築は難しい。大量のテキスト文集合がある場合には、n?gramが適切である。しかし、比較的小規模なタスクやユーザが容易に設計したいタスクでは文脈自由文法 (F) が適切である。本稿では文のカバー率を改善するために、n?gramとCFGの利点を取り入れた文法規則の自動学習法について述る。学習方法は、システムに入力された文が文法規則が不備なために受理できない時、システムがこの入力文を使って単語クラスペアやバイグラムの学習することによって実行する。この単語クラスペアやバイグラムの適用方法を変えたいくつかの実験をテキストと音声認識で行ない、文法学習による解析 (認識) 文数の向上及びパープレキシティの変化について調べた。In this paper, we describe an automatic learning method of the grammar rules for improving coverage of acceptable sentences. The learning method is carried out by a sentence which is not accepted by production rules. The system learns wordclass pairs or bigram using this input sentence. We experimented on some strategies of applying wordclass pairs on text parsing and speech recogniton level, and evaluated the coverage of acceptable sentences (or speech recognition rate) and perplexity using above methods.
著者
山田 寛康
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.47, pp.13-18, 2007-05-24

本稿では日本語固有表現に対してShift-Reduce法に基づく抽出法を提案しIREX日本語固有表現抽出タスクを用いてその有効性を検証する. 提案手法はShift-Reduce法に基づくことで 文頭から順に固有表現の語境界推定後にその種類を推定するという自然な解析が実現できる. また日本語における形態素単位解析では 形態素語境界と固有表現の語境界が異なる場合の誤抽出が問題となる. この問題に対し 提案手法は簡単な拡張アクションを追加することで 入力文全てを文字単位に解析することなく対処できる. CRL固有表現抽出データを用いた五分割交差検定による評価実験では 文頭から文末に向かって部分的に文字単位解析する効率的な方法で 0.88 のF値を得た.We propose a method for Japanese Named Entity (NE) extraction based on shift-reduce parsing in a deterministic manner. After shift action is employed to determine the word boundaries of an NE composed of multiple morphemes, reduce action is applied for the estimation of the NE type. In analysis of Japanese NEs for each morpheme, incorrect extractions are inevitable because of some NEs whose word boundaries are different from the morpheme's ones. While most well known work analyzes NEs for each character in sentences at the expense of efficiency, our method can analyze NEs for each morpheme in most cases by introducing two types of additional shift-reduce actions that adjust to the word boundaries of an NE. The result of 5-fold cross validation using CRL NE data-set shows that the 0.88 F-value is comparable with related work, and our left-to-right analysis for each morpheme is more efficient.
著者
勝占 真規子 北原 鉄朗 片寄 晴弘 長田 典子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.163-168, 2008-02-09

本研究では,ベイジアンネットワークを用いたコードネームからの自動ヴォイシングシステムについて述べる.ヴォイシングは音楽的同時性(響き)や音楽的連続性(流れ)を考慮しながらテンションや転回形を決定する必要があり,自動的に決定するのは容易ではない.この問題を解決するため,メロディやヴォイシング進行を考慮した事例学習型のコード・ヴォイシングモデルを構築する.メロディ音に音名ごとの占有度を定義することで音の衝突や不協和を避け,またヴォイシングをbottom,middle,topの3要素に分けることで前後の進行を考慮する枠組みを提案する.事例型システムに伴う自由度の拡大に対しては,モデルを細分化することで対処する.システムではこれらを組み込んだ1つのモデルから,尤もらしいヴォイシングを推測することが可能となる.実際にジャズ楽譜から学習したヴォイシング推定モデルを用いて,妥当なテンションや進行のある結果が出力されることを示した.This paper describes automatic chord voicing system using the Bayesian network. Automatic chord voicing is not easy because it needs to decide tensions and inversions by taking into acount interference with musical simultaneity(HIBIKI) and musical sequentiality(NAGARE). To solve this problem, we construct a chord voicing model based on the Bayesian network which taking into acount interference with the melody and temporal smoothness of the voicings, This model includes melody-node which represents the degree of occupancy per pitch notation, previous and next voicing nodes which are separated 3 elements, and our system infers the most likely voicing from the model. Moreover, we divide the model per root tone of chord to solve the degree-of-freedom problem This modeling makes it possible to take into acount both simultaneity and sequentiality at a single inference process. Experimental results of chord voicing for jazz musical pieces showed that our system generated chord voicings that has appropriate simultaneity and sequentiality.
著者
浜辺 良二 内元 清貴 河原 達也 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.143-148, 2006-12-21

講演のような話し言葉の書き起こしや音声認識結果を、講演録などのアーカイブとして二次利用する場合、文章として適した形態にする必要がある。本研究では、話し言葉の中で発言の引用が行われている箇所に引用符を自動付与する手法を提案する。機械学習により、まず引用構造をとる節を自動認定し、それらに引用符が必要かどうかを判定する。引用構造の認定では、表層表現や音響的特徴に加え、係り受け情報を利用することで認定精度の改善を図る。引用符付与の判定においては、学習の際に新聞記事コーパスから得られる情報をあわせて利用する。『日本語話し言葉コーパス(CSJ)』に対して、引用符付与の基準を定めた上で本手法の実験的評価を行なった。Transcriptions and speech recognition results of public speaking include many expressions peculiar to spoken language. Thus, it is necessary to transform them into document style for practical use of them. We focus on detecting quotations and enclosing them in quotation marks as written text. Quotations are detected with SVM-based text chunking method that considers information on morphemes, acoustic features, and dependency structures. Then, it is determined whether or not they need to be enclosed in quotation marks by machine learning method using the corpora of spoontaneous speech and newspapers. We defined how to classify quotations and evaluated our method on the Corpus of Spontaneous Japanese (CSJ).
著者
矢口 勇一 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.69, pp.135-140, 2005-07-16

本稿の目的は,「フレームワイズな音素識別ラベルを用いた音声検索」の方式を歌声データ検索に適用し,その有用性を調べることである.すなわち,フレームワイズに音素ラベル化された歌声データを検索対照データとし,クエリーとしての歌声データを検索対象データと同様に処理した後,クエリー列を用いてデータベースから連続DPによってスポッティング認識することで類似した部分区間の検索を行い,抽出された区間を含む楽曲を検索するものである.楽曲データベース全体から歌声クエリーを用いた楽曲検索率は,4小節分のクエリーで78\%であった.また、音声クエリーとの検索率の違いも本稿では述べる.Both song wave data and a query song wave data are transformed into phoneme sequences by frame-wize labeling of each frame feature. Applying a spotting algorithm called Continuous Dynamic Programming to these phoneme sequences, we can detect a set of similar parts in the song database each of which is similar to a query song wave. Song retrieval rate hits 78\ in 4 clauses from whole databases. Additionaly, difference of each query from song wave data and speech wave data remarked in this paper.
著者
西村 竜一 三宅 純平 河原 英紀 入野 俊夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.103, pp.13-18, 2007-10-19
被引用文献数
16

提案する w3voice システムは、Web システムに対して、音声による入力インタフェースを拡張する。Java アプレットと CGI プログラムから構成し、通信プロトコルには、HTTP POST method と Redirection response を応用した実装を行った。このため、事前に特別な専用プログラムのインストールを要求せず、普段の Web ブラウザをそのままで使うことができる。また、音声認識、対話、ボイスチェンジャ、掲示板等の音声 Web アプリケーションを作成し、Web サイトで公開した。本研究は、家庭や職場等での音声インタフェースの利用環境を調べることを目的とする。そのために、利用者からの入力発話を蓄積し、分析をはじめている。約7ケ月で一日 47.6個、合計で 8 412 の入力を得ることができた。本稿では、提案システムの概要を述べ、収集データの発話時間及び SNR に関する調査結果を報告する。We have developed a speech input method called "w3voice" to build practical and handy voice-enabled Web applications. It is constructed using a simple Java applet and CGI programs comprising free software. The mechanism of voice-based interaction is developed on the basis of raw audio signal transmissions via the POST method and the redirection response of HTTP. We have released a number of w3voice applications on our website for public uses. The system also aims at organizing a voice database obtained from home and office environments. We have succeeded in acquiring 8,412 inputs (47.9 inputs / day) over a period of seven months. This report describes an overview of the proposed system, and results of analyzing collected inputs to observe utterance lengths and SNR.
著者
河原 達也 住吉 貴志 李晃伸 武田 一哉 三村正人 伊藤彰則 伊藤 克亘 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.100, pp.37-42, 2001-10-19
参考文献数
20
被引用文献数
24

連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.
著者
土橋 佑亮 北原 鉄朗 片寄 晴弘
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2008, no.12, pp.217-224, 2008-02-09

音楽ジャンルは楽曲検索において有力な指標となる.音響信号を対象とした音楽情報検索の研究では,音色やリズムといった低次の特徴量を混合音全体から抽出するのが主流であるが,ユーザーの嗜好に合わせた検索を目指すには個々の楽器パートからの特徴量抽出が必要である.本稿では楽器編成の中で重要な役割を果たし,かつ複音からの分離が比較的容易なべースパートの特徴量を取り入れたジャンル推定を扱う.まず,ベースラインの特徴量をPreFEstを用いて得られた基本周波数から抽出し,従来より用いられてきた音色やリズム系の特徴量も用意する.マハラノビス距離を用いた6ジャンルでの識別実験において,ベースラインの特徴量を取り入れることで全ジャンル総合の認識率が54.3%から62.7%に向上した.またMusic Islandを利用して注目する特徴量に応じての楽曲の島を作成し,ユーザーの嗜好に対しての柔軟な楽曲分類を実現した.Music genres play an important role in music information retrieval (MIR). Most of the previous studies on MIR for audio signals have used low-level features, such as timbre and rhythm from a mixture of sound, but acoustic features sould be extracted from individual instrument parts to achieve user-adaptive MIR. In this paper, we deal with music genre classification using acoustic features extracted from the bass part, which plays an important role and the fundamental frequency of which can be comparatively easily estimated. First, the paper describes feature extraction about the bass part from pitch infomation obtained with PreFEst. We also prepare features about timbre and rhythm, which have been used so far. Experimentatal results of 6-genre classification by using the Mahalanobis distance show success rates of 62.7 % (with bass-part features), against 54.7 % (without bass-part features). Finally, we built Music Islands by browsing different views, and achieved flexible music classification for user's preference.
著者
杉山 聡 赤埴 淳一 小暮 潔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.55, pp.49-54, 2001-06-01
被引用文献数
1

本稿では,歩行者を目的地までナビゲートする対話において,歩行者にどのように適応して情報が伝達されているかを分析した結果について述べる.計算機システムを誰もが使いやすいように統計するためには,利用者に適応して情報を伝達にする技術が重要となる.特に,歩行者をナビゲートする対話システムでは,利用者の周辺地理に関する知識などに応じて,目的地までの経路を案内しなければならない.我々は,このような対話システムを実現するために,人間が歩行者をナビゲートする際に,どのように歩行者に適応した情報を伝達しているのかを収集し,分析した.対話データを分析した結果,歩行者の周辺地理に関する知識の有無に応じて,発話ターン数に統計的に有意な差があることを示す.さらに,ランドマークや方向指示の表現が,歩行者に応じて選択されることを示す.This paper describes empirical analyses of user adaptive interaction in route advice dialogues. User adaptation is an important technology to design computer systems so that everyone can use the systems without any barriers. In particular, interactive route advice systems should show users the way according to the users' properties, especially to users' knowledge on the region in question. To realize such dialogue systems, we have collected and analyzed how adaptively people advises routes. In this paper, empirical analyses show that there are significant differences in the number of dialogue turns according to user's knowledge on the region. We also show that landmarks and directions are described differently according to users.
著者
西村 竜一 西原 洋平 鶴身玲典 李晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.35-40, 2003-02-07
被引用文献数
6

生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムでは,大語彙連続音声認識を利用した一問一答形式の音声対話により,同センターや生駒市に関する案内を行うことが可能である.実用化を目指した本システムは,2002年11月6日からセンター内に常設され,開館時は誰でも自由に愛嬌のあるエージェントとのコミュニケーションを楽しむことができる.また,システムの改良に必要な対話記録を実際の運用を通じて収集し,発話内容の書き起こし等のデータの整備もすすめている.本稿では,主に本システムの構成および発話音声データ収集の状況について報告する.また,成人による比較的クリーンな発話をテストセットにした本システムの評価実験を行い,84%の単語正解率と70%の応答正解率を確認した.We implemented a practical speech guidance system for public use. It is called ``Takemaru-kun'', and located daily at the entrance hall of Ikoma Community Center to inform visitors about the center and around Ikoma city via speech human-machine interface and funny animating agent of Takemaru. This system aims to promote a field test for robust speech recognition in practical environment, and to collect actual utterance data in the framework of human-machine speech dialogue. The system has been running everyday since November 6, and a large number of user utterances have been collected. Classification and transcription of the data is also undertaken. This paper reports the outline of this system and current status of the data collection. In a recognition experiment with extracted samples of adult voices, word accuracy of 84% and answer rate of 70% was obtained.