著者
吉井 和佳 後藤 真孝
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.20, pp.1-6, 2009-07-22
被引用文献数
1

本稿では,楽曲のライムライン上の適切な時刻に適切なコメントを自動付与するシステム MusicCommentator について述べる.近年,ユーザが動画全体に対してではなく,動画中のある時刻に対してコメントできるオンライン動画共有サービスが人気を博している.本研究では,音楽演奏の動画に含まれる音楽音響信号を対象とし,音響的特徴量とコメント特徴量との確率的同時生成モデルを提案する.システムはまず,多くの楽曲とそれに付与されたコメントから確率モデルを学習する.その後,別の楽曲が入力として与えられた場合に,どの時刻に対して,どのような単語を用いてどのくらいの長さのコメントを新たに付与できるかを確率モデルを用いて推定する.このとき,言語的制約として単語間の連接を考慮し,文の合成をおこなう.実験の結果,入力楽曲の音響的特徴量だけを用いてコメント生成した時に比べ,すでに付与されたコメントを参考にしてコメント生成を行うと精度が向上することがわかった.This paper presents a system called MusicCommentator that suggests suitable comments for appropriate temporal positions in a music clip. Recently, an online video sharing service in which users can provide comments for temporal events occurring in video clips not for entire clips has gained a lot of popularity. We focus on musical audio signals included in video clips of music performances and propose a probabilistic model that jointly generates acoustic features and comment features. The model can be trained by using many music clips and their corresponding comments. Given a new clip as input, the system then determines appropriate temporal positions of comments and estimates their content and length. Finally, comment sentences are generated by taking word concatenations into account as language constraints. Our experimental results showed that comment accuracy was improved when the system used not only acoustic features of an input clip but also users' comments in the clip.
著者
後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告エンタテインメントコンピューティング(EC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.37, pp.59-66, 2007-05-10

本稿では、音楽音響信号の様々な要素を理解できる技術を応用することで、エンドユーザの音楽の聴き方をどのように豊かにできるかを探求する我々の研究アプローチを紹介する。我々はその研究事例として、7種類の能動的音楽鑑賞インタフェースを実現してきた。能動的音楽鑑賞とは、通常の受動的な鑑賞とは異なり、能動的にインタラクションしながら音楽を鑑賞する方法である。例えば、楽曲構造を見ながら楽曲内で興味のない区間を簡単に飛ばしたり、楽曲中の楽器の音色を変更したり、音楽コレクションをブラウジングして興味のある楽曲やアーティストに出会ったりするためのインタフェースを開発した。これらを通じて、音楽理解技術の重要性とそれが実際にエンドユーザの役に立つことを示す。This paper introduces our research approach aimed at enriching end-users' music listening experiences by applying technologies for understanding musical audio signals. Toward this goal, we have built seven active music listening interfaces. Active music listening is a way of listening to music through active interactions. For example, we have developed interfaces for skipping sections of no interest within a musical piece while viewing a graphical overview of the entire song structure, for changing the timbre of instrument sounds during music playback, and for browsing a large music collection to encounter interesting musical pieces or artists. These interfaces demonstrate the importance of music-understanding technologies and the benefit they offer to end users.
著者
後藤 真孝 村岡 洋一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.5, pp.901-911, 1994-05-25
被引用文献数
22

本論文では,複数の打楽器のみで演奏された音楽から各打楽器音の発音時刻と強度を認識する音源分離システムについて述べる.音源分離とは,複数の音源の音が混在している音響信号からそれぞれの音を分離して認識する技術であり,曲の音響信号からその楽譜を作り出す自動採譜において,中心となる重要な処理である.従来,楽音を対象にした音源分離システムは研究されてきたが,それらの手法は打楽器音に対して適用することができない.そこで本論文では,打楽器音の音源分離を実現する認識手法を提案する.本手法では,事前に登録してある打楽器音のテンプレートパターンと入力パターンとの距離を,改良したテンプレートマッチングにより求めてしきい値処理する.我々は,音量補正法,音源分離を実現する距離尺度,選択的注意の機構の三つの点でテンプレートマッチングを改良した.これにより,複数の音が混在したり音量が変化した場合にも各打楽器音を認識できる.本システムをワークステーション上に実装し,打楽器音の音源として電子楽器を用いて実験した結果,8Beatのドラムパターンの演奏音を音源分離することができた.
著者
水野 淳太 緒方 淳 後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.46, pp.31-38, 2008-05-15

本稿では,エピソードと呼ばれる音声ファイルの集合から成るポッドキャスト(音声ブログ)を対象とした,類似エピソードの検索手法について述べる.動画共有サイト等で,あるコンテンツの再生後に関連・類似したコンテンツを提示する機能を持つものが多いが,それらは書誌情報やタダユーザの視聴履歴に基づいている.本稿では,エピソードを音声認識した結果に基づいて,音声認識結果を confusion network に変換し,そこからエピソードを特徴づけるキーワードセットを抽出して,キーワードセット間の類似度を計算することで,関連エピソードを検索・提示できる手法を提案する.単語正解率や話者数など,傾向の異なるいくつかのエピソードに対して実験を行い,本手法がどのような場合に有効であるかについて評価を行った.本成果は,音声認識に基づくポッドキャスト検索サービス PodCastle で,関連エピソードを提示するためにも利用できる.Given podcasts (audio blogs) which are sets of speech files called episodes, this paper describes a method for retrieving similar episodes. Although video sharing services usualy have a function of showing a set of relevant /similar content after playing back a piece of content, they are based on bibliographic information, tags, and users' playback behaviours. In this paper, we propose a method that extracts keywords from confusion networks converted from speech recognition results and then retrieves and shows relevant episodes on the basis of similarity between those keywords. We evaluated this method using several episodes including a variety of speech recognition accuracy and the number of speakers. This result can be applied to show relevant episodes on PodCastle, a podcast search service based on speech recognition.
著者
後藤 真孝 平田 圭二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.75, pp.33-38, 1996-07-27
被引用文献数
14

本稿では,入力された単調なコード進行をジャズらしいコード進行にリハーモナイズするシステム「ハービー君」の設計方針,内部構成,実装について報告する.本研究では,演繹オブジェクト指向(O)の枠組と音楽知識処理との袈和性が高いことを実証し,DOOに基づく音楽応用システム構築法を確立するために,DOOに基づくジャズピアノ知識ベースシステムを応用してハービー君を構築する.リハーモナイズ前後のコード進行の関係をDOOにおけるオブジェクト間の包摂関係で合理的かつ自然に表現することで,ハービー君はリハーモナイズ後のコード進行を推論できる.我々は,拡張性の高い汎用的なシステムであることを考慮しながら,ネットワーク上の分散システムとしてハービー君を実現した.This paper presents the design principles, the system structure and the implementation of a reharmonization system, Herbie-kun, which accepts a simple chord progression and generates a jazzy chord progression. The purpose of this research is to exhibit high affinity of a deductive object-oriented (DOO) framework with music knowledge processing, and to establish an implementation methodology of music application systems in the D00 framework. We hence develop Herbie-kun as an application system of a jazz piano knowledge base system employing the D00 framework. Herbie-kun can infer a reharmonized chord with using a subsumption relation of the DOO framework that rationally and naturally associates original and reharmonized chord progressions. We have implemented Herbie-kun as a distributed system on a LAN, keeping high expandability and availability.
著者
佐々木 浩 中野 鐵兵 緒方 淳 後藤 真孝 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.10, pp.57-62, 2009-01-30
被引用文献数
3

ポッドキャストの音声認識における言語モデルの適応手法を提案する.ポッドキャストは,幅広い話題,タスクの音声データが日々増え続けるという特徴を持っているため,言語モデルをいかにして学習,構築するかが認識性能を左右する大きなポイントとなる.本稿では,言語モデリングにおいて,あらかじめポッドキャストが持つメタ情報と「語彙情報サービス」を活用することで,ポッドキャスト音声認識の性能向上をはかる.具体的には,あらかじめ用意された言語モデリング用学習テキストを各テキスト毎に特徴語を抽出し,ポッドキャストのタイトルや概要などに記載された語との共起を基準にテキストの選択を行い,ポッドキャスト毎に特化された言語モデルの学習を行う.加えて,学習テキストやポッドキャストのメタ情報上の語の不足から生じる,テキスト選択の精度低下の問題を解決するため,語彙情報サービスのタグ情報を活用する.本手法で適応された言語モデルを実際に用いて,その性能を単語パープレキシティと未知語率で評価した結果,単語パープレキシティがベースラインの86%,未知語率もベースラインの80%となり,言語モデルの性能が改善されたことが確認された.This paper presents a language model adaptation method for automatic transcription of podcasts. Since podcasts include speech data that contains a variety of topics and many newly created words, well designed language models are indispensable to achieve sufficient speech recognition rate. In this paper, we propose a new topic dependent language modeling method by using meta information of podcasts and vocabulary information service. In this method, a large amount of training data are collected from the Internet such as web news and blogs on a daily basis. By using RSS texts of podcasts, topic dependent texts are selected from these training data, and proper language models are created for each podcast. In addition, we utilize the tag information of the vocabulary information service to solve the problem of the precision fall of the text choice that the lack of the word in a learning text and a meta information of Podcast cause. The assessment result showed that the performance of the language model using this method is improved because the word perplexity of the result using this method is 86% of that of the baseline and the out-of-vocabraly rate of the result using this method is 80% of that of the baseline.
著者
後藤 真孝 伊藤 克亘 速水 悟
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2330-2340, 2000-11-25
被引用文献数
29

本論文では, 代表的ないいよどみ現象である有声休止(音節の引き延ばしも含む)を自動的に検出する手法を提案する.有声休止は音声対話において発語権の保持等の大切な役割を果たしており, その検出は音声対話システムを実現する上で重要である.従来, サブワード単位に基づく連続音声認識やワードスポッティングの枠組みで有声休止に対処する研究事例はあったが, いいよどみ現象として個々に検出しておらず, その役割を把握して適切に扱うことはできなかった.本手法は, 有声休止中は調音器官の変化が小さいことに着目し, 音韻的に変化が少ない持続した有声音(有声休止音)を検出する.その際, ボトムアップな信号処理によって, 有声休止音がもつ二つの音響的特徴(基本周波数の変動が小さくスペクトル包絡の変形が小さい)を検出することで, トップダウン情報を使わない言語非依存な検出を可能とする.本手法をリアルタイムに実行するシステムを実装し, 有声休止箇所のマーク付け作業を施した日本語の音声対話コーパスを用意して, 評価実験を行った.その結果, 30名の話者の自然発話に対し, F値0.726の精度で有声休止を検出できることが確認された.
著者
後藤 真孝
雑誌
情報処理
巻号頁・発行日
vol.51, no.6, pp.661-668, 2010-06-15
著者
後藤 真孝 吉井 和佳 藤原弘将 Matthias Mauch 中野 倫靖
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1363-1372, 2013-04-15

本論文では,音楽音響信号理解技術によって音楽の聴き方をより豊かにするための能動的音楽鑑賞サービスSongleについて述べる.従来,研究開発段階の音楽インタフェースや技術を,日常生活で人々に使ってもらうのは容易でなかった.Songleでは,Web上で人々に能動的音楽鑑賞インタフェースを体験してもらうことで,音楽鑑賞がより能動的で豊かになる質的な変化を日常生活で起こすことを目指す.そして,Web上の任意の楽曲に対して楽曲構造,階層的なビート構造,メロディライン,コードの4種類の音楽情景記述を自動推定して可視化することで,それを見て再生したユーザの音楽理解が深まることを可能にする.しかし,自動推定では誤りが不可避である.そこで効率的な誤り訂正インタフェースをWeb上で提供し,誤りを人手で自発的に訂正する貢献を促す.そうした不特定多数による訂正がユーザ体験の改善に結び付くことで,Songleのさらなる利用を促していく.
著者
佃 洸摂 石田 啓介 濱崎 雅弘 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2021-MUS-132, no.15, pp.1-10, 2021-09-09

本稿では,人々が Web 上で集まって同じ瞬間に同じ楽曲を聴きながら,リアルタイムにコミュニケーションが取れる音楽発掘カフェ「Kiite Cafe」を提案する.この Web サービスでユーザが楽曲を聴取する体験は,(i)各ユーザの楽曲に対する「好き」という反応が可視化される,(ii)Kiite Cafe で再生される楽曲はユーザの好みの楽曲から選択される,という 2 つのアーキテクチャによって特徴づけられる.これらのアーキテクチャによって,ユーザは対面で一緒に楽曲を聴いているかのように,他のユーザとの社会的繋がりを感じたり,自分の好きな楽曲を他者に紹介する喜びを感じたりできる.さらに,Kiite Cafe のアーキテクチャによって(1)再生中の楽曲に対して「好き」を伝えることの動機づけ,(2)多様な楽曲を好きになる機会の獲得,(3)キュレータとしての貢献,という 3 つの体験がユーザにもたらされる.1,760 名の Kiite Cafe ユーザによる約 5 ヶ月間の行動を分析することで,これらの体験を通して生まれる,ユーザにとってポジティブな影響を定量的に示す.
著者
渡邉 研斗 松林 優一郎 深山 覚 中野 倫靖 後藤 真孝 乾 健太郎
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-116, no.16, pp.1-12, 2017-05-08

本研究では楽曲のメロディを考慮した歌詞の自動生成手法を提案する.人間の作詞現場においては,予め作曲されたメロディに対して歌いやすい歌詞を創作する 「曲先」 と呼ばれる方法が広く行われている.しかしながら,自動歌詞生成の既存手法の多くは,韻やシラブルに基づく生成手法を提案しているものの,メロディと歌詞の関係を考慮しておらず,メロディの区切りと単語の区切りが一致しないような不自然な歌詞を生成してしまう問題がある.本研究では,メロディの音符と歌詞の読みが対応づいたデータを用いて,メロディの音の長さ ・ 休符の位置 ・ 繰り返し構造などの特徴と歌詞の相関を詳しく分析し,その結果をもとにした自動歌詞生成モデルを構築する.結果として作成されたモデルにより,休符や長い音符付近で行や段落 (連) が区切れている自然な歌詞が自動生成された.
著者
後藤 真孝 日高 伊佐夫 松本 英明 黒田 洋介 村岡 洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.4, pp.1910-1921, 1999-04-15
被引用文献数
12

本論文では すべてのプレーヤーが対等な立場でインタラクションし 即興演奏するジャズセッションシステムについて述べる. 本研究の目的は 人間と計算機とが影響を与え合いながら演奏する新しい統合演奏環境を実現することである. ジャズではプレーヤー間のインタラクションが重要であるが 従来の多くのシステムでは 人間のソロ演奏に対して 計算機が他のプレーヤー全員の演奏を伴奏としてまとめて生成していた. 本論文では 計算機内のプレーヤー同士も 人間同様にお互いの演奏を聞き合ってインタラクションできるシステムを提案する. そして その発展形として 各プレーヤーがお互いの姿を見ることもできる仮想ジャズセッションシステムVirJa Sessionを提案する. 本システムでは 計算機プレーヤーの姿やジェスチャーがコンピュータグラフィックスで視覚化され 計算機プレーヤーが他のプレーヤーのジェスチャーをカメラ等を通いて認識できる. こうして 全プレーヤー間のマルチモーダルインタラクションを実現することで 従来の音だけのセッションシステムに比べ より臨場感のあるセッションが達成できる. 現在の実装では ジャズのピアノトリオを対象とし 人間がピアニスト 計算機がベーシストとドラマーを担当する. 両計算機プレーヤーを独立したプロセスとして複数の計算機上に実装し 実験を行った結果 提案したジャズセッションが実現できたことを確認した.This paper presents a jazz session system in which each player is in dependent and can interplay with all other players. The purpose of this research is to build a new performance environment that facilitates interplay among humans and computers. Although interaction among players is important in jazz, computer accompaniment parts of most of the previous systems were collectively generated as a single task and only reacted to the human soloist's performance. This paper proposes a system that enables computer players to listen to other computer players' performances as well as the human players' performances and to interact with each other. This paper moreover proposes an advanced virtual jazz session system called VirJa Session which also enables all players to see each others' gestures. In our system, the bodies and gestures of computer players are visualized on computer graphics and each computer player can recognize other players' gestures. Thus, we can achieve multimodal interaction among all players. In our current implementation, the system deals with a jazz piano trio consisting of a human pianist, a computer bassist, and a computer drummer. Both computer players have been implemented as separate processes on a distributed environment of multiple workstations. Through our experiments, we verified that our proposed objectives have been achieved.
著者
コンヴェール マクシム 深山 覚 中野 倫靖 高道 慎之介 猿渡 洋 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2018-MUS-120, no.1, pp.1-8, 2018-08-14

ニューラルネットワークは自動和声付けにおいて有望な技術である.膨大なデータセットを元に,入力と出力の複雑な依存関係を学習することができるため,旋律と和音の依存関係も扱うことができる.ニューラルネットワークの性能はその入力と出力情報の表現方法が強く影響する.しかし,従来の自動和声付け研究では,出力情報である和音の表現方法について深くは検討されておらず,テンションノートといった和音の詳細な構造が最大限活用されてこなかった.和音の表現方法を変えることで,旋律と和音の関係を更に細かく学習できると考えられる.そこで本研究では,和音の表現方法の違いが Recurrent Neural Network (RNN) による自動和声付けの性能にどれほど影響するかを調査する.従来の表現方法を含む 4 つの異なる和音表現方法に基づいて Gated Recurrent Unit (GRU) を用いたニューラルネットワークを構築し,それらの性能を比較した.実験の結果,和音の構成音を陽に表現した表現方法を用いると,従来の和音ラベル形式を使った場合に近い性能に達成するだけでなく,構成音の細かな違いに対応できる多機能な自動和声付けモデルの構築を可能とすることがわかった.
著者
大浦圭一郎 間瀬 絢美 山田 知彦 徳田 恵一 後藤 真孝
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-86, no.1, pp.1-8, 2010-07-21

近年,コンピュータによる歌声合成が注目を集めている.中でも隠れマルコフモデル(hidden Markov model; HMM)に基づく歌声合成では,歌い手の特徴を歌声データと対応する楽譜から自動的に学習することができる.2009年12月,無料のオンラインサービス「HMM歌声合成システム: Sinsy」を開始した.ユーザーは楽譜をウェブサイトにアップロードすることで,任意の楽譜に対応した歌声を合成することができる.但し,Sinsyの歌声モデルには70曲で学習した特定話者モデルを用いており,新しい歌い手の歌声モデル追加の際の収録コストが高くなる問題があった.本稿ではSinsyのシステム構成について述べるとともに,話者適応手法により少量のデータから所望の歌い手の特徴を再現した歌声を合成することを検討する.
著者
北原 鉄朗 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2721-2733, 2006-12-01
参考文献数
25
被引用文献数
2

本論文では,多重奏に対する音源同定において不可避な課題である「音の重なりによる特徴変動」について新たな解決法を提案する.多重奏では複数の楽器が同時に発音するため,各々の周波数成分が重なって干渉し,音響的特徴が変動する.本研究では,混合音から抽出した学習データに対して,各特徴量のクラス内分散・クラス間分散比を求めることで,周波数成分の重なりの影響の大きさを定量的に評価する.そして,線形判別分析を用いることで,これを最小化するように特徴量を重み付けした新たな特徴量軸を生成する.これにより,周波数成分の重なりの影響をできるだけ小さくした特徴空間が得られる.更に,音楽的文脈を利用することで音源同定の更なる高精度化を図る.実楽器音データベースから作成した二重奏〜四重奏の音響信号を用いた実験により,二重奏では50.9%から84.1%へ,三重奏では46.1%から77.6%へ,四重奏では43.1%から72.3%へ認識率の改善を得,本手法の有効性を確認した.