著者
後藤 真孝 中野 倫靖 濱崎 雅弘
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.56, no.11, pp.739-749, 2014-02-01 (Released:2014-02-01)
参考文献数
19

本稿では,初音ミクとN次創作に関連した音楽情報処理の研究事例として,歌声合成技術VocaListenerと音楽視聴支援サービスSongriumを紹介する。VocaListenerは,初音ミク等の歌声合成ソフトウェアを用いて,録音された人間の歌声の事例からその歌い方(声の高さと声の大きさ)をまねて自然な歌声を合成する技術である。Songriumは,オリジナル楽曲とそれらのN次創作結果である派生作品といったさまざまな関係性を可視化できる音楽視聴支援サービスである。本稿ではさらに,より未来を見据えて自動創作と自動鑑賞の可能性を考察することで,音楽がもたらす感動の本質的な要因についても議論する。
著者
後藤 真孝
出版者
一般社団法人 電気学会
雑誌
電気学会誌 (ISSN:13405551)
巻号頁・発行日
vol.132, no.9, pp.630-633, 2012-09-01 (Released:2012-09-01)
参考文献数
11
被引用文献数
1 1

本記事に「抄録」はありません。
著者
山本 雄也 中野 倫靖 後藤 真孝 寺澤 洋子
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.64, no.10, pp.1423-1437, 2023-10-15

歌手は楽譜に合わせて歌うだけでなく,その音高や音色に変動を加えることがある.本論文は,これらを「歌唱テクニック」とし,ポピュラー音楽の中でもJ-POPを対象に,歌手によって歌唱テクニックがどのくらいの頻度でどのように生起するか,そして楽曲のどこで生起するか,その傾向を分析することを目的とする.そこで本論文では,J-POPのプロ歌手24名(男女各12名)の歌い方を別のプロ歌手14名(男女各7名)が学術目的で模倣した歌声データベース「AIST-SIDB」に含まれる48歌唱の13種類の歌唱テクニックを対象として,歌唱テクニックとメロディの持つ音楽要素との関係性を分析した.具体的には,歌唱テクニックの生起頻度と,歌唱テクニックの1つであるビブラートに関してはそのパラメータ(深さと速さ)を分析した.さらに,歌唱テクニックの生起位置を楽譜情報と対応付けて,各歌唱テクニックと「歌詞の音素」,「音高」,「音高差」,「音長」,「フレーズ内における位置」との関係を分析し,またビブラートパラメータと「音高」および「ビブラート長」との相関を分析した.
著者
後藤 真孝 吉井 和佳 中野 倫靖 緒方 淳
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

本招待講演ではメディア処理におけるクラウドソーシング利用の先駆事例として、音楽理解技術によって音楽の聴き方を豊かにする能動的音楽鑑賞サービスSongleと、音声認識技術によって動画中の音声を書き起こせる音声情報検索サービスPodCastleを紹介する。いずれも自動理解誤りの訂正インタフェースをWeb上で提供し、不特定多数による自発的な訂正がユーザ体験の改善に結びつくことでさらなる利用を促していく。
著者
加藤 淳 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2023-MUS-138, no.7, pp.1-21, 2023-08-20

音楽に合わせてタイミングよく歌詞が動くリリックビデオは楽曲のプロモーション手段として一般化したが,いつ再生されても同じ内容を提示するため,視聴者は受動的に楽しむしかない.そこで我々は,ユーザとのインタラクションにより歌詞のテキストを再生のたびに異なる方法で提示でき,静的メディアの制約を取り払える歌詞駆動型のインタラクティブな視覚表現を「リリックアプリ」と定義する.そして,この表現形式をプログラマやミュージシャンに開放するため,リリックアプリを開発・配信できる Web ベースのフレームワーク「Lyric App Framework」を提案する.当該フレームワークは,我々が研究・開発・運営してきたリリックビデオ制作支援サービス「TextAlive」の Web インタフェースと,歌詞駆動の表現を開発できる機能をプログラマ向けに開放する「TextAlive App API」で構成される.当 API は,既存の,プログラマが使い慣れたクリエイティブコーディングのためのライブラリと相補的な役割を果たし,インタラクティブなリリックアプリをすぐに開発可能である.我々は,2020 年に当 API を一般公開し,新たな表現形式の可能性を探ってきた.とくに,創作文化に関するイベント「マジカルミライ」ではプログラミング・コンテストが毎年開催され,最初の 2 回で 52 作品が集まった.これらの作品を分析して得られたリリックアプリのカテゴリ 8 種類と,音楽とプログラミングの未来に関する示唆を報告する.
著者
加藤淳 中野倫靖 後藤真孝
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-104, no.15, pp.1-7, 2014-08-18

本稿では、歌詞を歌声と同期してアニメーションさせる Kinetic Typography と呼ばれる動画表現の制作環境 TextAlive を提案する。既存の制作ツールでは、歌詞と歌声の同期を手作業で取り、文字や単語、複数単語から成るフレーズに対して個別に望みの動きを設計する必要があった。その際は、動きを規定するアルゴリズムのパラメタを、スライダーなどの汎用 GUI で調整して試行錯誤を重ねていた。一方、本制作環境では、歌詞と音楽の時間的対応付けを自動で推定し、動きのアルゴリズムに対する初期パラメタを自動生成する。さらに、動きのアルゴリズムを編集できるコードエディタを備え、プログラマがパラメタ調整に適した専用 GUI を容易に提供できるフレームワークを提供する。これにより、TextAlive のユーザは Kinetic Typography を一から作る必要がなくなり、初めに時間合わせなどを行う手間をかけずに済む。また、歌詞の動きをインタラクティブかつグラフィカルに設計できるようになる。
著者
後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.43, no.11, pp.1210-1216, 2002-11-15
被引用文献数
7

ユーザがある単語を一部しか思い出せずに断片だけを言って言い淀むと,計算機側がその残りを補って入力することを可能にする「音声補完」という音声インタフェース機能を紹介する.これにより,入力中に困って言い淀めば手助けが受けられる使いやすい音声入力が実現できた.音声補完の研究は,今後他の非言語情報も活用していくことで,さらに使いやすい音声インタフェースの構築を目指していこうというメッセージも持っている.
著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.23, pp.1-7, 2013-08-24

本稿では、複数の歌声から得られる音響特徴量をトピックモデルによって分析することで、歌声の特性を説明する新しい手法を提案する。従来、歌手の特性 (性別や声種等)、歌い方の特性 (声区やF0軌跡のモデル化等)、聴取印象 (明るさ等)、楽曲の特性 (楽曲ジャンルや歌詞等) を分析・推定したりする研究はあったが、複数の歌声から分かるような潜在的な意味を分析する研究はなかった。本稿では、伴奏と歌声を含む音楽音響信号から、歌声の線形予測メルケプストラム係数 (LPMCC) と ΔF0 を特徴量として自動推定した後、潜在的ディリクレ配分法 (LDA) で分析を行う。LDA によって得られた潜在意味 (トピック) の混合比が歌手名同定にも適用可能であることを示し、声道長の正規化に相当する処理を導入することで、性別を超えた類似歌手検索を実現することも示す。また、トピックの混合比を用いて、各トピックにおいて支配的な曲の歌手名をタグクラウドのように提示することで、トピックや歌声の意味を可視化する方法を提案する。
著者
中野 倫靖 後藤 真孝 平賀 譲
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.227-236, 2007-01-15

本論文では,歌唱力を自動的に評価するシステム開発の第1 段階として,ポピュラー音楽における歌唱力の「うまい」「へた」を,楽譜情報を用いずに自動的に識別する手法を提案する.従来,訓練された歌唱者の歌唱音声に関する音響学的な考察は行われてきたが,それらの研究は歌唱力の自動評価に直接適用されたり,人間による評価と結び付けて検討されたりすることはなかった.本論文では,聴取者の歌唱力評価の安定性を聴取実験によって確認し,そこで得られた結果から歌唱音声に「うまい」「へた」をラベル付けして自動識別実験を行った.そのための特徴量として,歌唱者や曲に依存しない特徴であることを条件に,相対音高とビブラートの2 つを提案する.聴取実験では,22 人の聴取者を被験者とし,聴取者間の評価に相関があった組の割合は88.9%(p < .05)であった.また,600 フレーズのラベル付けされた歌唱音声に対して識別実験を行った結果,83.5%の識別率を得た.
著者
中野 倫靖 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.227-236, 2007-01-15
被引用文献数
14

本論文では,歌唱力を自動的に評価するシステム開発の第1 段階として,ポピュラー音楽における歌唱力の「うまい」「へた」を,楽譜情報を用いずに自動的に識別する手法を提案する.従来,訓練された歌唱者の歌唱音声に関する音響学的な考察は行われてきたが,それらの研究は歌唱力の自動評価に直接適用されたり,人間による評価と結び付けて検討されたりすることはなかった.本論文では,聴取者の歌唱力評価の安定性を聴取実験によって確認し,そこで得られた結果から歌唱音声に「うまい」「へた」をラベル付けして自動識別実験を行った.そのための特徴量として,歌唱者や曲に依存しない特徴であることを条件に,相対音高とビブラートの2 つを提案する.聴取実験では,22 人の聴取者を被験者とし,聴取者間の評価に相関があった組の割合は88.9%(p < .05)であった.また,600 フレーズのラベル付けされた歌唱音声に対して識別実験を行った結果,83.5%の識別率を得た.As a first step towards developing an automatic singing skill evaluation system, this paper presents a method of classifying singing skills (good/poor) that does not require score information of the sung melody. Previous research on singing evaluation has focused on analyzing the characteristics of singing voice, but were not directly applied to automatic evaluation or studied in comparison with the evaluation by human subjects. In order to achieve our goal, two preliminary experiments, verifying whether the subjective judgments of human subjects are stable, and automatic evaluation of performance by a 2-class classification (good/poor ), were conducted. The approach presented in the classification experiment uses pitch interval accuracy and vibrato as acoustic features which are independent from specific characteristics of the singer or melody. In the subjective experiment with 22 subjects, 88.9% of the correlation between the subjects' evaluations were significant at the 5% level. In the classification experiment with 600 song sequences, our method achieved a classification rate of 83.5%.
著者
中野 倫靖 緒方 淳 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.41, pp.45-50, 2004-05-07
被引用文献数
1

本稿では,人がドラムの音を真似て口ずさんだ音声(口ドラム)を認識し,それに対応するドラムパターンを検索する手法を提案する.従来,実際のドラム音(楽器音)を対象とした認識は研究されてきたが,口ドラムは研究されていなかった.口ドラム認識では,音質とドラム音表現の両方の個人差への対処が問題となるため,従来のドラム音認識手法は適用できない.そこで本手法では,擬音語を中間形式として採用することでこの問題に対処する.擬音語の各音素を口ドラム音のスペクトル構造へ対応付けるために確率モデルを用い,音質の個人差を吸収する.また,各ドラム音に対応する擬音語の辞書を用意して、表現の個人差に対処する.200発話の口ドラムデータに対して実験した結果,91.5%の認識率を得た.This paper proposes a method of recognizing voice percussion )simulated drum sound by voice) and retrieving the corresponding drum pattern from a database. Although drum sound recognition has been the topic of existing work, there has been no previous attempt that dealt with the problem of voice percussion recognition. This problem is difficult because of individual differences inherent in voice spectrum characteristics and also in how the intended drum sounds are articulated. We solve this problem by utilizing phonemic sequences of onomatopoeia as internal representation. The sequences are estimated from the input power spectrum with a stochastic model, and are flexibly matched with dictionary entries representing typical drum patterns. This two-level scheme is intended to deal with the two types of individual differences mentioned above. In an experiment with 200 utterances of voice percussion, our method achieved a recognition rate of 91.5%.
著者
藤原弘将 後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.81, pp.27-32, 2007-08-01
被引用文献数
3

ボーカルの声質の類似度に基づく楽曲検索システムを開発した.本システムは,クエリとして与えられた楽曲と類似した声質を持つ楽曲を予め登録したデータベース中から検索する.本システムを実現するために,伴奏を含む音響信号中から伴奏音の影響を低減させ歌声の特性を表現する特徴ベクトルを抽出する手法と,相互情報量を用いて2つの特徴ベクトル列間の類似度を計算する手法を開発した.本システムを実装し,75曲をデータベースに登録し運用することで,システムが正しく動作することを確認した.さらに,被験者実験の結果,被験者の80%の回答が,従来のMFCCなどを用いた手法と比較して,提案手法によりボーカルの声質が類似した楽曲を検索出来ていると回答した.We developed a music information retrieval system based on singing voice timbre,i.e., a system that can search for songs in a database that have similar vocal timbres. To achieve this, we developed a method for extracting feature vectors that represent characteristics of singing voices and calculating the vocal-timbre similarity between two songs by using a mutual information content of their feature vectors. We operated the system using 75 songs and confirmed that the system worked appropriately. According to the results of a subjective experiment, 80% of subjects judged that compared with a conventional method using MFCC, our method finds more appropriate songs that have similar vocal timbres.
著者
廣中 詩織 佃 洸摂 濱崎 雅弘 後藤 真孝
出版者
ARG Webインテリジェンスとインタラクション研究会
雑誌
ARG 第11回Webインテリジェンスとインタラクション研究会 予稿集 = Proceedings of the 11th ARG Web Intelligence and Interaction
巻号頁・発行日
pp.17-22, 2017

オリジナルコンテンツから次々と新しい派生コンテンツが制作されるN 次創作活動では,複数人のクリエータがコラボレーションをしてひとつのコンテンツを制作することが盛んに行われている.本稿では,動画共有サービスに投稿された,音楽に関するN 次創作動画を対象として,コラボレーションがもたらす効果について分析する.具体的には,以下の3 つの観点から分析を行う:(1)コラボレーションが動画の視聴のされ方に与える影響,(2)コラボレーションがクリエータのアクティビティに与える影響,(3)コラボレーション関係に基づくクリエータの特性.分析の結果,コラボレーションによって制作された動画は再生数がより多くなること,コラボレーション動画を制作したクリエータはより長い期間N 次創作活動を行うこと,コラボレーションをしたクリエータのペアの25%以上は複数回のコラボレーションをしており,コラボレーションには一定の継続性があることなどが明らかになった.
著者
原 健太 加藤 淳 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2016-MUS-112, no.8, pp.1-7, 2016-07-23

本稿では,DJ 機器および DJ システムをプログラミングで制御可能にすることで,コンピュータと人間が共同でミックスを行う DJ プレイ手法を提案する.ユーザは,事前にプログラミングしておくことで,つまみを 6 つ高速かつ正確に同時に動かすなど,人間には難しい制御を披露できる.さらに,即興でプログラミングすることも可能で,その場の雰囲気に合わせた選曲変更に対応したり,プログラムのパラメタを調整したりして,コンピュータとの B2B プレイ (Back-to-back; 2 人の DJ が交互に選曲する協力プレイ) ができる.
著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.2, pp.1-7, 2014-08-18

本稿では、歌声と伴奏を含む音楽音響信号を対象として、「ボーカルの歌声」、「楽曲中の音色」、「リズム」、「和音進行」 の確率的生成モデルを構築し、モデルからの生成確率を計算することで、「楽曲間の類似度」 や 「楽曲のありがち度」 を推定する手法を提案する。歌声、音色、リズムに関しては、LPMCC、MFCC、Fluctuation Pattern に基づく音響特徴量を抽出し、それぞれに関して潜在的ディリクレ配分法 (LDA) を用いたトピック分析を行う。個々の楽曲毎に学習したモデルと全曲から学習したモデルから、楽曲における各音響特徴量の生成確率を計算することで、それぞれ楽曲間の類似度とありがち度を推定した。和音進行に関しては、能動的音楽鑑賞サービス Songle のコード認識結果に対し、可変長 Pitman-Yor 言語モデル (VPYLM) でモデル化した。ここでは、個々の楽曲毎に学習したモデルと全曲で学習したモデルから、各曲のパープレキシティの逆数 (各和音の平均的な生成確率) を計算することで、それぞれ類似度とありがち度として推定した。本稿では、ポピュラー音楽 3278 曲を対象として分析した結果を報告する。
著者
矢倉 大夢 中野 倫靖 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2016-MUS-112, no.3, pp.1-10, 2016-07-23

本稿では,作業時に集中度を高めることを目的として聴取する楽曲,「作業用 BGM」 に特化した楽曲推薦システムを提案する.従来,ユーザが好むであろう楽曲を推薦する手法が研究されてきたが,「とても好き」 な楽曲は作業者の集中を阻害することが知られており,作業用 BGM として推薦する楽曲に適していない.提案システムは,「とても好き」 や 「とても嫌い」 ではなく、「好き」 もしくは 「どちらともいえない」 楽曲を,BGM 聴取時のユーザからのフィードバックに基づいて推薦する.具体的には,楽曲のサビ区間までをダイジェスト的に聴取する (部分的にしか再生されない) システムとして設計することで,楽曲を 「スキップ」 するフィードバックによって 「嫌い」 な楽曲を推定する従来手法に加え,「もっと聴く」 フィードバックを導入して 「好き」 な楽曲を推定する.さらに,「好き」 として推定された楽曲は,ユーザの集中度を行動ログから推定して 「とても好き」 か 「好き」 かを識別する.これは集中度が高い時のフィードバックは,低い時より嗜好度を強く表しているという仮説に基づく.そして,楽曲間類似度に基づく Label Spreading により,頑健にかつ再生履歴が少ない状況でも適切に楽曲を推薦することを可能にした.
著者
緒方 淳 後藤 真孝 江渡 浩一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.11, pp.41-46, 2007-02-09
被引用文献数
7

本稿では、ポッドキャストを検索できる Web サービス「PodCastle」を実現するための音声認識手法について述べる。ポッドキャストでは多様な内容が異なる環境で録音されており、多数の未知語を含む新たな話題も多いため、従来の音声認識システムで適切に認識するのは困難だった。この問題を解決するために、本研究では、Web 2.0 によって得られる様々なデータを用いることによって、継続的に、音声認識システムを改善していく。具体的には、各ポッドキャストの内容に応じた言語モデルの話題適応、Web 2.0 のサービスを通じた単語発音の自動獲得、PodCastle 上でのユーザが音声認識誤りを訂正した結果を用いた未知語の学習等を試みた。実際にポッドキャストを対象とした認識実験を行い、性能向上に有効であることを確認した。This paper describes speech recognition techniques that enable a web service "PodCastle" for searching podcasts. Most previous speech recognizers had difficulties dealing with podcasts because they include various contents recorded in different conditions and new topics with many out-of-vocabulary words. To overcome such difficulties, we continuously improve speech recognizers by using information aggregated on the basis of Web 2.0. For example, the language model is adapted to a topic of the target podcast on the fly, the pronounciation of unknown words is obtained from a Web 2.0 service, and out-of-vocabulary words are automatically acquired by analyzing user corrections of speech recognition errors on PodCastle. The experiments we report in this paper show that our techniques produce promising results for podcasts.
著者
持橋 大地 吉井 和佳 後藤 真孝
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-213, no.11, pp.1-8, 2013-09-05

本論文では,単語に潜在空間における座標を明示的に与え,その上でのガウス過程を考えることで,通常の混合モデルに基づくトピックモデルより高精度なテキストモデルが得られることを示す.提案法は潜在層が二値ではなく,ガウス分布に従う RBM の生成モデルともみることができ,MCMC により単語の潜在座標を学習することは他の多くの応用や,可視化にも自然に繋がることができる.
著者
中野 倫靖 後藤 真孝
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.6, pp.1771-1783, 2013-06-15

本論文では,ユーザの歌声からその声色(こわいろ)変化を真似て歌声合成するシステムVocaListener2を提案する.本システムは,我々が以前開発した音高と音量のみを真似て歌声合成するVocaListenerの拡張であり,声色変化にも対応する.従来,主に声質変換やモーフィングのために,声質を操作する技術はあったが,ユーザが歌唱において意図的に変更する声色の変化を反映することはできなかった.VocaListener2を実現するために,まずVocaListenerによってユーザ歌唱の音高,音量および音素(歌詞)を真似た多様な歌声を合成して声色空間を構成し,その結果を用いてユーザ歌唱の声色変化を反映して合成する.市販の歌声合成システムを用いて実験した結果,構成された声色空間は聴取印象を反映しており,音高と音量に加えて声色変化も真似ることができていた.