著者
加藤 圭造 伊藤 彰則
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.14, pp.1-6, 2012-01-27

本研究ではデスメタル,メタルコアなどエクストリームメタルと言われるジャンルで頻繁に用いられる,グロウル及びスクリーム歌唱について音響的特徴の分析を行った.先行研究で特殊な発声の音響的な特徴として示されたサブハーモニクスの存在や macro pulse 構造の調査,病的音声の分析になどに使われる jitter,shimmer,HNR の値について測定を行った.
著者
阿部ちひろ 伊藤彰則
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.3, pp.1-6, 2012-08-02

本稿では,Ngram 言語モデルをもとに歌詞候補文を生成する作詞補助システム 「patissier」 への実装を想定した,歌詞テキストの特徴分析結果を報告する.作詞においては,音韻やアクセントなど技巧的な側面の考慮とともに,楽曲のテーマや歌詞のストーリー設定も重要な要素である.より歌詞らしい候補の生成を目的として,コンテンツ投稿サイト 「ピアプロ」 に投稿された歌詞テキストを用い,一般に歌詞らしさと呼ばれる特徴の定量的検討を行った.また,CSJ (日本語話し言葉コーパス) や blog 記事との比較から,主に使用される単語の違いにより,歌詞とその他の文章は統計的に区別可能であることが示唆された.さらに,3 種類のモデルを用いた歌詞生成実験により,それぞれ異なった傾向を持つ文が生成されることが確かめられた.
著者
加藤 圭造 伊藤 彰則
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012, no.14, pp.1-6, 2012-01-27

本研究ではデスメタル,メタルコアなどエクストリームメタルと言われるジャンルで頻繁に用いられる,グロウル及びスクリーム歌唱について音響的特徴の分析を行った.先行研究で特殊な発声の音響的な特徴として示されたサブハーモニクスの存在や macro pulse 構造の調査,病的音声の分析になどに使われる jitter,shimmer,HNR の値について測定を行った.In this study, we analized acoustic feauture of growl and scream singing voices used in extream metal music, such as death metal, metal core, and so on. We observed sub-harmonics and macro pulse structures those are reported as accoustic features of rough voice. We also measured jitter, shimmer, and HNR values.
著者
伊藤 彰則
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2015-NL-221, no.12, pp.1-6, 2015-05-18

筆者のグループがこれまで研究してきた,音声対話を利用した英会話のための CALL システムに関する技術について述べる.音声認識技術を利用した現状の CALL システムは,発音やイントネーションなど,1 つの発話に含まれる要素を採点するものが多い.それも重要ではあるが,英会話学習には 「実際に使われる表現を何度も繰り返して練習する」 ということも必要である.この考えに基づき,筆者のグループではこれまで 「対話に基づく CALL システム」 について研究してきた.本稿では,対話音声からの韻律評価,文法誤り検出および応答タイミング制御練習のためのシステムについて述べる.
著者
廣井 富 伊藤 彰則
出版者
特定非営利活動法人 日本バーチャルリアリティ学会
雑誌
日本バーチャルリアリティ学会論文誌 (ISSN:1344011X)
巻号頁・発行日
vol.18, no.2, pp.161-170, 2013

We can make a robot suitable for users' preference by designing its appearance and interaction through subjective evaluation. However, for evaluating users' impressions using real robots, it is necessary to build many robots with various specifications such as height, which is time-consuming and costly. In this paper, we propose a robot design methodology based on augmented reality (AR). We conducted experiments to evaluate a robot's head size using both AR and real robots, and similar results were obtained from both evaluation experiments in an environment with simple background. Next, we conducted experiments to evaluate a robot's head size using both AR and real robots in a real environment, and similar results were obtained from both evaluation experiments. From these experiments, we can conclude that the CG-based robot evaluation is as effective as that using real robots. In addition, the AR technology enables us to evaluate the robot in a real environment, which realizes more realistic evaluation of robot design without building real robots.
著者
加瀬 嵩人 能勢 隆 千葉 祐弥 伊藤 彰則
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 A (ISSN:09135707)
巻号頁・発行日
vol.J99-A, no.1, pp.25-35, 2016-01-01

近年,非タスク指向型の音声対話システムへの需要が拡大しており,様々な研究がされている.それらほとんどの研究は言語的な観点から適切な応答の生成を目指したものである.一方で人間同士の会話においては,感情表現や発話様式などのパラ言語情報を効果的に利用することにより,対話を円滑に進めることができると考えられる.そこで我々はシステムの応答の内容ではなく,応答の仕方に着目し,感情音声合成を対話システムに用いることを試みる.本研究ではまず,適切な感情付与を人手により与えた場合に実際に対話システムの質が向上するかを複数のシナリオを作成して主観基準により評価する.次に,感情付与を自動化するために,システム発話に応じた付与とユーザ発話に協調した付与の二つの手法について検討を行う.評価結果から,感情を自動付与することで対話におけるユーザの主観評価スコアが向上すること,またユーザ発話に協調した感情付与がより効果的であることを示す.
著者
伊藤 彰則
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-112, no.10, pp.1-6, 2016-07-21

音声認識の特徴量抽出では,まず入力音声に時間窓をかけて局所的な信号を切り出し,音声信号の局所的な周波数情報を取り出す.この時間窓の位置を少しずつずらしながら分析を行うことで,音声の持つ周波数成分の時間変化を捉えることができる.このとき時間窓をずらす時間間隔がフレームシフトであり,典型的には 5ms~10ms に設定される.本稿では,このフレームシフトを 2 つの点から再考する.一つ目の視点は 「フレームシフトは 10ms で十分なのか?」 という点である.フレームに基づく処理は,音声信号が短い時間で大きく変化しないことを前提としているが,破裂子音などではこの前提がそもそも成立していない.そこで,10ms ごとのフレームの先頭位置のずれによって,抽出される特徴量が大きく変化することを実験的に示す.また,偶然によるフレーム位置の変動に起因する特徴量変動に対応するため,フレーム位置をずらした学習サンプルを学習に用いる方法を提案する.二つ目の視点は,「フレーム位置のずれが学習によって吸収できるのであれば,フレームシフトはもっと長くてもよいのではないか?」 という点である.フレームシフトを実験的に 60ms 程度まで長くして実験を行ったところ,フレームシフト 40ms ではフレームシフト 10ms を越える認識性能が得られ,50ms でも 10ms と同程度の認識性能が得られた.これらの条件では 1 状態 HMM (すなわち GMM) が使われており,認識のための計算量の大幅な削減が期待できる.
著者
鈴木 直人 廣井 富 千葉 祐弥 能勢 隆 伊藤 彰則
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.56, no.11, pp.2177-2189, 2015-11-15

本研究では,音声を用いた英会話の学習が可能なコンピュータ利用言語学習(Computer-Assisted Language Learning, CALL)システムを提案する.特に,英会話学習における学習者の応答タイミングに着目する.一般的に学習段階において応答タイミングは適切なものに比べ遅くなりがちであるが,システムとの英会話では応答タイミングを意識しにくい.そこで対話相手としてCGキャラクタを導入し,応答を要求する表現であるタイムプレッシャー表現を付加する練習方法を提案する.CGキャラクタの有無,タイムプレッシャー表現の有無のほかに,短期間での繰返し練習,および期間をおいた練習を通じて,提案手法の有効性について論じる.
著者
廣井 富 伊藤 彰則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎
巻号頁・発行日
vol.110, no.459, pp.27-28, 2011-02-28

ロボットの外観やインタラクションを主観評価によってデザインすることで,ロボットをよりユーザの嗜好に合わせることができる.その際に,評価軸に対応するすべての実ロボットを製作して評価することは現実的ではない.本稿では,「ロボットを主観評価する際にロボットの体はどこまで必要なのか」について,外観やインタラクションなどの評価軸との関係を議論する.
著者
阿部ちひろ 伊藤彰則
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-96, no.3, pp.1-6, 2012-08-02

本稿では,Ngram 言語モデルをもとに歌詞候補文を生成する作詞補助システム 「patissier」 への実装を想定した,歌詞テキストの特徴分析結果を報告する.作詞においては,音韻やアクセントなど技巧的な側面の考慮とともに,楽曲のテーマや歌詞のストーリー設定も重要な要素である.より歌詞らしい候補の生成を目的として,コンテンツ投稿サイト 「ピアプロ」 に投稿された歌詞テキストを用い,一般に歌詞らしさと呼ばれる特徴の定量的検討を行った.また,CSJ (日本語話し言葉コーパス) や blog 記事との比較から,主に使用される単語の違いにより,歌詞とその他の文章は統計的に区別可能であることが示唆された.さらに,3 種類のモデルを用いた歌詞生成実験により,それぞれ異なった傾向を持つ文が生成されることが確かめられた.
著者
石川 永和 伊藤 彰則 牧野 正三
雑誌
全国大会講演論文集
巻号頁・発行日
vol.46, pp.55-56, 1993-03-01

近年の自然言語処理システムでは文法をはじめとする各種言語情報は各単語ごとに分散記述,データベース化し,維持・管理することが多い.しかしこのデータベース化にはコストがかかること,タスクごとに変更を迫られるなどの点から作成の自動化が望まれている.これに当たっては大量のテキストを解析しなければならないが,辞書未登録語(未知語)については検出を行い,言語情報を付与する必要がある.本稿ではこの未知語検出に関する一方法を提案する.この方法は文節間の依存関係を表現した文節間文法を基礎とするもので,前報告で述べた疑似文節を用いた未知語検出法に採り入れることにより検出率が向上した.
著者
大道 竜之介 伊藤 仁 伊藤 彰則 牧野 正三
出版者
情報処理学会
雑誌
情報処理学会研究報告. [音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.85, pp.J1-J6, 2010-05-27
参考文献数
10

歌唱音声の新たな評価指標として 「熱唱度」 の導入を提案する.聴取実験の結果から,歌唱音声中のビブラートおよび呼吸音が,熱唱の知覚に関与することがわかった.本稿では, 歌唱音声におけるビブラート,有声呼吸音,声門破裂の 3 つの特徴を挙げ,これらを定量化する音響特徴量について検討する.34 名の歌唱音声に対する聴取実験から得た,熱唱度の聴取実験スコアと,複数の音響特徴量との重回帰分析を行い,それらの間に重相関係数 0.45 を得た.We propose introducing "enthusiasm" as a novel index of singing voice. The result of the listening experiment by human subjects suggests that both vibrato and breath sounds in singing voice concern human perception of enthusiasm. This paper describes our experiments to quantify 3 features in singing voice; vibrato, voiced breath sounds and glottal plosion. As a result of the multiple linear regression analysis between perceived enthusiasm score evaluated by the listening experiment with singing voice recordings of 34 people and some quantified acoustic features, we reached multiple correlation coefficient of 0.45.
著者
堀 智織 加藤 正治 伊藤 彰則 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-2, 情報・システム 2-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2407-2417, 2000-11-25
参考文献数
9
被引用文献数
9

本論文では, 確率文脈自由文法(Stochastic Context Free Grammar:SCFG)を大語彙連続音声認識に適用する手法として, 文節単位の係り受け制約をもつSCFGを提供する.SCFGは, N-gramのような局所的な制約だけでなく, 文全体にわたる大局的な制約をも記述できることから, 非常に表現力の高い言語モデルとして知られている.しかし, SCFGのパラメータ推定にはInside-Outsideアルゴリズムを用いる必要があり, 非終端記号数の3乗, かつ入力系列長の3乗に比例する莫大な計算量を要する.そのため, SCFGは大量のテキストコーパスから推定することが難しく, これまで大語彙連続音声認識用の言語モデルとして利用されることはほとんどなかった.提案する文節単位の係り受けSCFGは, Inside-Outsideアルゴリズムの計算量を係り受けの制約により非終端記号数の2乗に, 文節単位の導入により更にその約1/8に削減できる有効なモデルである.EDRコーパスを用いた実験では, 提案法を含む各種SCFGの性能とパラメータ推定に要する処理量を比較し, 提案法が計算量を大幅に削減しつつ, パープレキシティがほとんど増加しいことを示す.毎日新聞コーパスを用いた実験では, 大規模な文節単位の係り受けSCFGを構築し, 大語彙連続音声認識システムに実装する.そして, 語彙サイズ5000の音声認識実験を行い, SCFGによる認識性能はTrigramには及ばないものの, Trigramと併用した場合にはTrigram単独の場合に比べて約14%の単語誤りを削減できることを示す.
著者
阿部 ちひろ 伊藤 彰則
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2011-MUS-91, no.9, pp.1-6, 2011-07-20

本稿では,音節数と韻に着目した作詞支援システムを提案する.システムは Ngram 言語モデルをもとに,ユーザの指定した音節数と韻の条件を満たす歌詞候補文を生成し,提示する.ユーザはシステムを辞書のように用い,提示文から主体的に言葉を選び作詞を進めることができる.我々は GUI を備えた作詞補助システムを実装し,提示文とシステムの主観評価実験を行った.