著者
後藤 真孝 吉井 和佳 中野 倫靖 緒方 淳
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

本招待講演ではメディア処理におけるクラウドソーシング利用の先駆事例として、音楽理解技術によって音楽の聴き方を豊かにする能動的音楽鑑賞サービスSongleと、音声認識技術によって動画中の音声を書き起こせる音声情報検索サービスPodCastleを紹介する。いずれも自動理解誤りの訂正インタフェースをWeb上で提供し、不特定多数による自発的な訂正がユーザ体験の改善に結びつくことでさらなる利用を促していく。
著者
中野 倫靖 緒方 淳 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.41, pp.45-50, 2004-05-07
被引用文献数
1

本稿では,人がドラムの音を真似て口ずさんだ音声(口ドラム)を認識し,それに対応するドラムパターンを検索する手法を提案する.従来,実際のドラム音(楽器音)を対象とした認識は研究されてきたが,口ドラムは研究されていなかった.口ドラム認識では,音質とドラム音表現の両方の個人差への対処が問題となるため,従来のドラム音認識手法は適用できない.そこで本手法では,擬音語を中間形式として採用することでこの問題に対処する.擬音語の各音素を口ドラム音のスペクトル構造へ対応付けるために確率モデルを用い,音質の個人差を吸収する.また,各ドラム音に対応する擬音語の辞書を用意して、表現の個人差に対処する.200発話の口ドラムデータに対して実験した結果,91.5%の認識率を得た.This paper proposes a method of recognizing voice percussion )simulated drum sound by voice) and retrieving the corresponding drum pattern from a database. Although drum sound recognition has been the topic of existing work, there has been no previous attempt that dealt with the problem of voice percussion recognition. This problem is difficult because of individual differences inherent in voice spectrum characteristics and also in how the intended drum sounds are articulated. We solve this problem by utilizing phonemic sequences of onomatopoeia as internal representation. The sequences are estimated from the input power spectrum with a stochastic model, and are flexibly matched with dictionary entries representing typical drum patterns. This two-level scheme is intended to deal with the two types of individual differences mentioned above. In an experiment with 200 utterances of voice percussion, our method achieved a recognition rate of 91.5%.
著者
緒方 淳 後藤 真孝 江渡 浩一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.11, pp.41-46, 2007-02-09
被引用文献数
7

本稿では、ポッドキャストを検索できる Web サービス「PodCastle」を実現するための音声認識手法について述べる。ポッドキャストでは多様な内容が異なる環境で録音されており、多数の未知語を含む新たな話題も多いため、従来の音声認識システムで適切に認識するのは困難だった。この問題を解決するために、本研究では、Web 2.0 によって得られる様々なデータを用いることによって、継続的に、音声認識システムを改善していく。具体的には、各ポッドキャストの内容に応じた言語モデルの話題適応、Web 2.0 のサービスを通じた単語発音の自動獲得、PodCastle 上でのユーザが音声認識誤りを訂正した結果を用いた未知語の学習等を試みた。実際にポッドキャストを対象とした認識実験を行い、性能向上に有効であることを確認した。This paper describes speech recognition techniques that enable a web service "PodCastle" for searching podcasts. Most previous speech recognizers had difficulties dealing with podcasts because they include various contents recorded in different conditions and new topics with many out-of-vocabulary words. To overcome such difficulties, we continuously improve speech recognizers by using information aggregated on the basis of Web 2.0. For example, the language model is adapted to a topic of the target podcast on the fly, the pronounciation of unknown words is obtained from a Web 2.0 service, and out-of-vocabulary words are automatically acquired by analyzing user corrections of speech recognition errors on PodCastle. The experiments we report in this paper show that our techniques produce promising results for podcasts.
著者
水野 淳太 緒方 淳 後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.46, pp.31-38, 2008-05-15

本稿では,エピソードと呼ばれる音声ファイルの集合から成るポッドキャスト(音声ブログ)を対象とした,類似エピソードの検索手法について述べる.動画共有サイト等で,あるコンテンツの再生後に関連・類似したコンテンツを提示する機能を持つものが多いが,それらは書誌情報やタダユーザの視聴履歴に基づいている.本稿では,エピソードを音声認識した結果に基づいて,音声認識結果を confusion network に変換し,そこからエピソードを特徴づけるキーワードセットを抽出して,キーワードセット間の類似度を計算することで,関連エピソードを検索・提示できる手法を提案する.単語正解率や話者数など,傾向の異なるいくつかのエピソードに対して実験を行い,本手法がどのような場合に有効であるかについて評価を行った.本成果は,音声認識に基づくポッドキャスト検索サービス PodCastle で,関連エピソードを提示するためにも利用できる.Given podcasts (audio blogs) which are sets of speech files called episodes, this paper describes a method for retrieving similar episodes. Although video sharing services usualy have a function of showing a set of relevant /similar content after playing back a piece of content, they are based on bibliographic information, tags, and users' playback behaviours. In this paper, we propose a method that extracts keywords from confusion networks converted from speech recognition results and then retrieves and shows relevant episodes on the basis of similarity between those keywords. We evaluated this method using several episodes including a variety of speech recognition accuracy and the number of speakers. This result can be applied to show relevant episodes on PodCastle, a podcast search service based on speech recognition.
著者
松坂 要佐 緒方 淳 麻生 英樹 浅野 太
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎 (ISSN:09135685)
巻号頁・発行日
vol.106, no.219, pp.13-18, 2006-08-21
被引用文献数
6

多人数会話の工学的応用を行った研究についてのサーベイを行った.多人数会話とは3人以上の参加者によって行われる会話形態のことである.公共の場での大小の会議や各家庭でのテーブルトークなど,我々の日常の社会生活のうち,時間・重要性の両面において多くを占める部分がこの形態の会話によって行われている.本稿ではこの多人数会話を対象として作られた工学的なシステムについていくつか取り上げて議論するとともに,会話の構成員,利用メディアの種別によって分類することを試みた.既存の研究の分類・共通する問題についての議論を行うとともに,現在我々の開発している会議アーカイブシステムVTMOfficeについて紹介した.
著者
佐々木 浩 中野 鐵兵 緒方 淳 後藤 真孝 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.10, pp.57-62, 2009-01-30
被引用文献数
3

ポッドキャストの音声認識における言語モデルの適応手法を提案する.ポッドキャストは,幅広い話題,タスクの音声データが日々増え続けるという特徴を持っているため,言語モデルをいかにして学習,構築するかが認識性能を左右する大きなポイントとなる.本稿では,言語モデリングにおいて,あらかじめポッドキャストが持つメタ情報と「語彙情報サービス」を活用することで,ポッドキャスト音声認識の性能向上をはかる.具体的には,あらかじめ用意された言語モデリング用学習テキストを各テキスト毎に特徴語を抽出し,ポッドキャストのタイトルや概要などに記載された語との共起を基準にテキストの選択を行い,ポッドキャスト毎に特化された言語モデルの学習を行う.加えて,学習テキストやポッドキャストのメタ情報上の語の不足から生じる,テキスト選択の精度低下の問題を解決するため,語彙情報サービスのタグ情報を活用する.本手法で適応された言語モデルを実際に用いて,その性能を単語パープレキシティと未知語率で評価した結果,単語パープレキシティがベースラインの86%,未知語率もベースラインの80%となり,言語モデルの性能が改善されたことが確認された.This paper presents a language model adaptation method for automatic transcription of podcasts. Since podcasts include speech data that contains a variety of topics and many newly created words, well designed language models are indispensable to achieve sufficient speech recognition rate. In this paper, we propose a new topic dependent language modeling method by using meta information of podcasts and vocabulary information service. In this method, a large amount of training data are collected from the Internet such as web news and blogs on a daily basis. By using RSS texts of podcasts, topic dependent texts are selected from these training data, and proper language models are created for each podcast. In addition, we utilize the tag information of the vocabulary information service to solve the problem of the precision fall of the text choice that the lack of the word in a learning text and a meta information of Podcast cause. The assessment result showed that the performance of the language model using this method is improved because the word perplexity of the result using this method is 86% of that of the baseline and the out-of-vocabraly rate of the result using this method is 80% of that of the baseline.
著者
山中 隆 鹿嶋 雅之 佐藤 公則 渡邊 睦 緒方 淳
出版者
一般社団法人 電気学会
雑誌
電気学会論文誌C(電子・情報・システム部門誌) (ISSN:03854221)
巻号頁・発行日
vol.129, no.5, pp.792-799, 2009-05-01 (Released:2009-05-01)
参考文献数
11

Many researches have been done as for outdoor scene recognition by analyzing optical flow information. However, a practical driver-oriented system has not been proposed yet that notices the “Risk degree” when multiple obstacles exist, such as, parking cars and pedestrians. This article presents a new method to detect stand still obstacles using the “model flow” corresponding to optical flow field where there is no obstacle. The model flow is calculated using the knowledge as for navigation environments. Standard Points which are regularly set on image coordinates are transformed to Environment Points on road plane using several parameters such as, steering angle and camera tilt angle. Stand still objects are automatically detected by analyzing the difference between a model flow field and a real optical flow field which is acquired by an in-vehicle camera image. The algorithms have been installed in a desktop PC by Microsoft Visual C++6.0 programs. Experimental results by several kinds of outdoor scenes have shown the effectiveness of the proposed method. Total detection ratio is 91.0% and that in Dangerous case is 100%.
著者
後藤 真孝 緒方 淳 江渡 浩一郎
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.104-113, 2010
被引用文献数
2 1

In this paper, we describe a public web service, <EM>``PodCastle''</EM>, that provides full-text searching of speech data (Japanese podcasts) on the basis of automatic speech recognition technologies. This is an instance of our research approach, <EM>``Speech Recognition Research 2.0''</EM>, which is aimed at providing users with a web service based on Web 2.0 so that they can experience state-of-the-art speech recognition performance, and at promoting speech recognition technologies in cooperation with anonymous users. PodCastle enables users to find podcasts that include a search term, read full texts of their recognition results, and easily correct recognition errors by simply selecting from a list of candidates. Even if a state-of-the-art speech recognizer is used to recognize podcasts on the web, a number of errors will naturally occur. PodCastle therefore encourages users to cooperate by correcting these errors so that those podcasts can be searched more reliably. Furthermore, using the resulting corrections to train the speech recognizer, it implements a mechanism whereby the speech recognition performance is gradually improved. Our experience with this web service showed that user contributions we collected actually improved the performance of PodCastle.
著者
重森 猛 金子 剛志 緒方 淳 藤本 雅清 有木 康雄 塚田 清志 濱口 伸 清瀬 基
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.618, pp.33-40, 2003-01-23
参考文献数
14
被引用文献数
6

本研究では、野球のラジオ実況中継音声に対して大語彙連続音声認識を行い、キーワードを抽出してハイライトシーンを検出することを目的としている。音声認織部をより頑健にするために、音響モデルでは、MLLR+MAP適応による教師あり、教師なし適応を行っている。この音響モデルの2段階適応を用いることにより、アナウンサーの話者性に適応することができ、ベースラインに比べ単語正解精度で約28%の改善が得られた。言語モデルでは、言語モデルの融合、選手名のクラス化、発音辞書の修正を行い、ベースラインに比べ単語正解精度で約13%の改善が得られた。それぞれの適応を統合することにより、単語正解精度で約38%の改善が得られた。
著者
中野 倫靖 緒方 淳 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.386-397, 2007-01-15
被引用文献数
3

本論文では,人がドラムの音を「ドンタンドドタン」のように擬音語で真似た音声(口ドラム)を,それに対応するドラムパターンとして認識する手法を提案する.口ドラムには,声質などの発声スタイルの個人差と表現の個人差の2 種類の個人差が存在し,認識手法はこれらの個人差を吸収できるものが望ましい.従来,実際のドラム音(楽器音)を対象とした認識は研究されてきたが,それらの手法では口ドラムの多様な個人差への対処が難しかった.そこで本手法では,口ドラムを,その各音を表す音素列の擬音語で表現し,多様な擬音語表現の辞書を用意することで,表現の個人差に対処する.さらに,音声認識で用いられている音響モデルを用いることにより,各歌唱者間の声質の個人差を吸収する.本手法を200 発話の口ドラムデータに対して適用した結果,最も良い実験条件において92.0%の認識率を得た.この結果は,提案手法が十分実用性を持つことを示しており,応用例として,口ドラムによるドラム譜入力インタフェースVoice Drummer を実装した.This paper presents a method of recognizing voice percussion (verbalized expression of drum sound by voice) as an expression of intended drum patterns. Recognition of voice percussion requires an approach that is different from existing methods for drum sound recognition. Individual differences in both vocal characteristics and the verbal expressions used add further complication to the task. The approach taken in this study uses phonemic sequences of onomatopoeia as internal representation of drum sounds. The set of onomatopoeia used in drum sounds are included in a pronunciation dictionary, and the phonemic sequences are estimated by utilizing an acoustic model. The acoustic model and the dictionary are intended to deal with the two types of individual differences mentioned above. In a recognition experiment with 200 utterances of voice percussion, our method achieved a recognition rate of 92.0% for the highest-tuned setting. Following the results of the proposed method, Voice Drummer, a music notation interface of drum sounds, was implemented, as a practical application for voice percussion recognition.
著者
浅野 太 麻生 英樹 河本 満 緒方 淳 松坂 要佐
出版者
独立行政法人産業技術総合研究所
雑誌
基盤研究(A)
巻号頁・発行日
2006

本研究では、複数のマイクロホンと全方位カメラとからなる入力装置により会議内容を収録したマルチメディアデータ(映像・音声)から、いつ、だれが、どんな発言をしたかという情報を、音源定位・音源分離や音声認識技術などを用いて自動推定して、会議の構造を視覚化するシステムを開発した。このシステムにより、キーワードを含む場面を簡単に検索・再生し、会議の概要を短時間で把握できるようになる。
著者
藤原弘将 後藤 真孝 緒方 淳 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.37-44, 2006-08-07

本稿では,伴奏音を含む音楽音響信号と対応する歌詞の時間的な対応付け手法について述べる.クリーンな音声信号とその発話内容の時間的対応付けを推定をするViterbi アラインメント手法はこれまでも存在したが,歌声と同時に演奏される伴奏音の悪影響で市販 CD 中の歌声には適用できなかった.本稿では,この問題を解決するため,歌声の調波構造を抽出・再合成することで混合音中の歌声を分離する手法,歌声・非歌声状態を行き来する隠れマルコフモデル (HMM)を用いた歌声区間検出手法,音響モデルを分離歌声に適応させることで Viterbi アラインメントを適用する手法を提案する.日本語のポピュラー音楽を用いた評価実験を行い,本手法により10曲中8曲について十分な精度で音楽と歌詞の対応付けが出来ることを確かめた.This paper describes a method that can automatically synchronize between polyphonic musical audio signals and corresponding lyrics. Although there were methods that can synchronize between monophonic speech signals and corresponding text transcriptions by using Viterbi alignment techniques, they cannot be applied to vocals in CD recordings because accompaniment sounds often overlap with vocals. To align lyrics with such vocals, we therefore developed three methods: a method for segregating vocals from polyphonic sound mixtures by extracting and resynthesizing the vocal melody, a method for detecting vocal sections using a Hidden Markov Model (HMM) that transitions back and forth between vocal and non-vocal state, and a method for adapting a speech-recognizer phone model to segregated vocal signals. Experimental results for 10 Japanese popular-music songs showed that our system can synchronize between music and lyrics with satisfactory accuracy for 8 songs.