著者
加藤 圭造 伊藤 彰則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.112, no.422, pp.43-48, 2013-01-30

エクストリームメタルで頻繁に用いられるグロウル・スクリームといった歌唱法は、エクストリームメタルだけに留まらず広く用いられており、現代の音楽シーンに必須の歌唱法の一つである。本研究ではこれらの歌唱音声が持つ音響的特徴量と聴覚印象の関連を考察することで、これらの歌唱音声に必要な音響的特徴がどの様なものであるかを明らかにすることを試みる。
著者
小泉 政利 安永 大地 木山 幸子 大塚 祐子 遊佐 典昭 酒井 弘 大滝 宏一 杉崎 鉱司 Jeong Hyeonjeong 新国 佳祐 玉岡 賀津雄 伊藤 彰則 金 情浩 那須川 訓也 里 麻奈美 矢野 雅貴 小野 創
出版者
東北大学
雑誌
基盤研究(S)
巻号頁・発行日
2019-06-26

主語(S)が目的語(O)に先行するSO語順がその逆のOS語順に比べて処理負荷が低く母語話者に好まれる傾向があることが報告されている。しかし,従来の研究はSO語順を基本語順にもつSO言語を対象にしているため,SO語順選好が個別言語の基本語順を反映したものなのか,あるいは人間のより普遍的な認知特性を反映したものなのかが分からない。この2種類の要因の影響を峻別するためには,OS語順を基本語順に持つOS言語で検証を行う必要がある。そこで,本研究では,SO言語とOS言語を比較対照することによって,人間言語における語順選好を決定する要因ならびに,「言語の語順」と「思考の順序」との関係を明らかにする。
著者
小泉 政利 安永 大地 木山 幸子 大塚 祐子 遊佐 典昭 酒井 弘 大滝 宏一 杉崎 鉱司 Jeong Hyeonjeong 新国 佳祐 玉岡 賀津雄 伊藤 彰則 金 情浩 那須川 訓也 里 麻奈美 矢野 雅貴 小野 創
出版者
東北大学
雑誌
基盤研究(A)
巻号頁・発行日
2019-04-01

主語(S)が目的語(O)に先行するSO語順がその逆のOS語順に比べて処理負荷が低く母語話者に好まれる傾向があることが報告されている。しかし,従来の研究はSO語順を基本語順にもつSO言語を対象にしているため,SO語順選好が個別言語の基本語順を反映したものなのか,あるいは人間のより普遍的な認知特性を反映したものなのかが分からない。この2種類の要因の影響を峻別するためには,OS語順を基本語順に持つOS言語で検証を行う必要がある。そこで,本研究では,SO言語とOS言語を比較対照することによって,人間言語における語順選好を決定する要因ならびに,「言語の語順」と「思考の順序」との関係を明らかにする。
著者
高橋 遼太 能勢 隆 伊藤 彰則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理
巻号頁・発行日
vol.2015, no.1, pp.1-6, 2015-05-18

本論文では,従来の HMM 音声合成において曖昧であったアクセントラベリング基準について検討を行い,合成音声への影響を調べる.具体的には,アクセント型の表現およびアクセント句境界の基準について検討する.アクセント型については,尾高型が 0 型とモーラ長型の 2 通りの表現があることに着目し,それらを用いた場合に合成音声の F0 がどのような影響を受けるかについて客観評価を行う.また,2 段階クラスタリングを用いる効果についても検証する.アクセント句境界については,アクセント句によっては 0 型と 1 型の 2 つのアクセント句で表現する場合と,それらを結合し 1 つのアクセント句として表現する場合があり,これらの違いが合成音声に与える影響を調べる.またこれらの評価において,日本語アクセントの高低の誤りを客観的指標として導入し,この指標の有効性について分析を行う.
著者
戸塚典子 伊藤彰則
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2013, no.10, pp.1-6, 2013-12-12

音声操作インタフェースがロボットなど移動機構を持つ機器に搭載されると,ユーザが音声によってロボットをリアルタイムで操作するという状況が考えられる.しかしこのような場合,ユーザの言い間違えやシステムの誤認識などによってロボットがユーザの意図せぬ動作をする可能性がある.我々は,そのような動作が発生した際に迅速に修正する手法として,ユーザの意図せぬロボット動作が発生した際のユーザ発話のパラ言語的特徴に着目し,これらをロボットの制御に応用することを提案する.本研究では,被験者実験によって実際にロボットを操作している音声を収集し,ロボットがユーザの意図通りに動作している時とそうでない時で発話速度,基本周波数 (F0),インテンシティに変化が表れるかどうか分析を行った.
著者
伊藤 彰則 牧野 正三 城戸 健一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:09151923)
巻号頁・発行日
vol.J74-D2, no.9, pp.1147-1155, 1991-09-25

連続音声認識のための新しい統語処理アルゴリズム「機能語予測CYK法」について述べる.機能語予測CYK法は,CYK法をベースとし,これに機能語の予測機能を加えたものである.機能語を予測しながらマッチングすることにより,効率的な処理を行うことができる.次に,この機能語予測CYK法にビームサーチを導入したアルゴリズムを提案する.また,機能語を効率良く予測するための正規文法(機能語オートマトン)を導入する.これは,従来の文節処理に用いられてきた有限オートマトンと同じものが使用できるため,文節内文法での各種の制約が利用できる.ビームサーチと機能語オートマトンの導入によって,非終端記号数の増加に伴う記憶容量および計算量の増加を抑えることができる.このビームサーチを用いた機能語予測CYK法と,文節検出+統語処理の2段階の認識方式との比較実験を行った結果,計算量・精度ともに機能語予測CYK法が優れていることがわかった.
著者
加藤 圭造 伊藤 彰則
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-94, no.14, pp.1-6, 2012-01-27

本研究ではデスメタル,メタルコアなどエクストリームメタルと言われるジャンルで頻繁に用いられる,グロウル及びスクリーム歌唱について音響的特徴の分析を行った.先行研究で特殊な発声の音響的な特徴として示されたサブハーモニクスの存在や macro pulse 構造の調査,病的音声の分析になどに使われる jitter,shimmer,HNR の値について測定を行った.
著者
齋藤 優貴 能勢 隆 伊藤 彰則
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J99-D, no.11, pp.1112-1115, 2016-11-01

テレビ電話において話者(元話者)の顔画像の個人性を別の話者(目標話者)のものに変換する手法を提案する.Kinectにより顔の部位の形状を表すAnimation Unitパラメータを取得し,輝度値への変換をDNNを用いて行いその評価を行った.
著者
市川 拓人 鈴木 基之 伊藤 彰則 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.81, pp.33-38, 2007-08-01
被引用文献数
3

本稿では,ピッチ抽出を行わないハミング入力楽曲検索システムについて検討する.ピッチ抽出は,どれほど高精度なものでもピッチ抽出誤りを避けることができず,検索精度を低下させる原因となっている.本システムでは,従来用いられているデルタピッチの代わりに,2つの対数周波数領域パワースペクトルの相互相関関数を音程特徴量として用い,さらに楽曲中に存在しているであろう全音程の確率モデルを用意しておく.連続する2つの音符が観測された時,この特徴量と確率モデルを用いて,全音程についての尤度を計算する.このシステムの利点は,統計的なモデル化を行うことにより,ピッチ抽出誤りのような致命的な誤りを起こしにくいということである.そして実際に検索実験を行ったところ,ピッチによる検索精度を最大4.9%上回る結果となった.This paper describes a query-by-humming (QbH) music information retrieval (MIR) system without pitch extraction. In pitch extraction based system, pitch extraction errors inevitably occur that degrades performance of the system. In this system, a cross-correlation function between two logarithmic frequency spectra is extracted as a tonal feature instead of deltaPitch, and probabilistic models are prepared for all tone intervals assumed to exist in the music. When two signals corresponding to two contiguous notes are given, likelihoods are calculated for all possibility of tone intervals. The advantage of this system is that it is hard to occur a fatal error such as a pitch extraction error because extracted features are modeled stochastically. From a experimented result, the top retrieval accuracy given by the proposed method have exceeded the system based pitch extraction by 4.9 %.
著者
伊藤 彰則 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2062-2069, 1996-12-25
被引用文献数
18

日本語連続音声認識のための新しい言語モデル作成法について述べる.英語のコーパスは単語ごとに分かち書きされているために,単語単位のN-gramが容易に作成できる.これに対して,日本語のコーパスは漢字かな混じり文で記述されているために,事前に形態素解析を行って形態素単位のN-gramを作成するか,あるいは文字単位のN-gramを使う方法が提案されていた.本論文では,これらの手法に対して「かな・漢字文字列によるN-gram」を提案する.この手法は,学習テキストから統計的に決めた単位でテキストを分割し,そのN-gramを求めるという手法である.この手法を用いれば,事前に形態素解析を行うことなくN-gramを作成することができる.テキスト分割の手法についてさまざまな方法を比較した結果,学習テキスト中の出現頻度によって文字列を選択する方法が最も良い性能を与えた.また,学習テキストと評価テキストを変えた実験を行った結果,いずれの条件でも従来法を超える性能を得ることができた.
著者
鈴木直人 廣井富 藤原祐磨 黒田尚孝 戸塚典子 千葉祐弥 伊藤彰則
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.9, pp.1-6, 2013-12-12

英会話練習をする際は対話相手が必要であり,相手との会話がテンポ良く行えるようになる練習が求められる.CALL (Computer-Assited Language Learning) システムにおいて,学習者の応答のタイミングを向上させるような枠組みは無いのが現状である.英会話練習の際には発話内容を想起し,それを英語で表現する 2 重の認知的負荷がかかるため,交代潜時が長くなりがちであるが,対話の最初から意識的に交代潜時を短くしていくためには学習者に対して明示的な方法を用いるべきである.そこで本研究では対話相手として AR (Augmented Reality) キャラクタを設定し,タイムプレッシャー表現をかけたときに応答タイミングの練習として有効であるかどうかを実験により検証することを試みた.実験参加者にはタイムプレッシャーの有無で 2 通りの対話を行い,最後に主観評価のアンケートを行った.本稿では以上の結果と主観評価を踏まえた考察を報告する.
著者
伊藤 彰則 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会総合大会講演論文集
巻号頁・発行日
vol.1996, no.1, pp.345-346, 1996-03-11

現在我々は文節構造をベースとした対話音声認識を目指して研究を進めている.その一環として,これまで人間同士の対話から文節構造モデルを構築するという研究を行ってきた.しかし,単純な有限オートマトンによる文法では認識に用いる際の制約能力が不十分であることから,N-gramなどの確率モデルの利用を検討している.N-gramによる確率モデルを日本語に適用する際に問題になるのは,何をモデルの単位とするかである.英語の場合には学習用のテキストが単語ごとにわかち書きされているので単語単位のN-gramが容易に構成できるが,日本語の場合には事前に形態素解析が必要である.しかし,従来の形態素解析システムを用いて会話文のような文章を解析するのは難しく,正確な解析は望めない.文字などの単位を用いた確率モデルを使うこともできるが,N-gramの単位が短いため,制約が弱い.そこで本稿では,次のような手法によって自動的にN-gramを生成する方法について検討する.1.「単語単位」と「文字単位」の中間的な単位として,学習テキストから自動的に抽出できる単位を用いて確率モデルを構成する.2.学習テキストの文字列を何らかの基準でクラスに分け,そのクラスと文字のN-gramを構成する.3.学習テキストに対して文節数最小基準による形態素解析を行い,その結果からN-gramを生成する.今回は,文節単位のデータを用いてN-gramを構成し,マルコフモデルによる文節モデルを構築している.
著者
河原 達也 住吉 貴志 李晃伸 武田 一哉 三村正人 伊藤彰則 伊藤 克亘 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.100, pp.37-42, 2001-10-19
参考文献数
20
被引用文献数
24

連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.
著者
阿部 ちひろ 伊藤 彰則
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2011, no.9, pp.1-6, 2011-07-20

本稿では,音節数と韻に着目した作詞支援システムを提案する.システムは Ngram 言語モデルをもとに,ユーザの指定した音節数と韻の条件を満たす歌詞候補文を生成し,提示する.ユーザはシステムを辞書のように用い,提示文から主体的に言葉を選び作詞を進めることができる.我々は GUI を備えた作詞補助システムを実装し,提示文とシステムの主観評価実験を行った.In this paper, we propose a lyrics writing support system focused on the number of syllables and rhyme. The system generates candidate sentences that satisfy user-specified conditions based on Ngram, and presents them. A user can use the system like a dictionary, and write lyrics be choosing presented words. We have implemented a system with GUI, and subjective evaluations of the statements and proposed system were conducted.
著者
石川 永和 伊藤 彰則 牧野 正三
雑誌
全国大会講演論文集
巻号頁・発行日
vol.44, pp.177-178, 1992-02-24

現在我々は大規模な言語データベースの構築を行なおうとしている。データベース作成にあたっては大量のテキストを解析することが必要であり、これらのテキストを対して十分な語彙を持つ辞書を用意する必要がある。しかしながらあらゆるテキストに対処できる辞書を構成することは日本語の造語能力などの点から、因難である。またデータベース作成の趣旨からはテキスト中に辞書に記載されていない語が存在した場合この語の文法的性質や意味推定を行ない、最終的には新語として辞書に単語登録する段階に達することが望まれる。本稿ではデータベース作成の第一段階として行なわれる形態素解析において辞書未登録語を検出することを目的とする。従来さまざまな形態素解析法が提案されているがこれらは解析対象となるテキストに辞書未登録語が現れないことを前提としているものが多く、未登録語が存在する場合の動作は保証されていない。ここでは一旦形態素候補を作成した後、新たな形態素候補を加えることにより、未知語が存在しても形態素解析が行なえるアルゴリズムを開発することをねらう。
著者
栗山 直人 鈴木 基之 伊藤 彰則 牧野 正三
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.106, no.442, pp.55-60, 2006-12-15

PLSAは言語モデルの文脈適応に一般的に用いられる手法である.このPLSAの新しい利用方法を提案する.PLSA言語モデルの語彙を「話題語」「文型語」「汎用語」の3クラスに分割し,話題語PLSAモデルと文型語PLSAモデルを別々に学習・適応した後に3つのモデルを統合する.また新聞記事とCSJ間での品詞分類の出現パターン変化に基づいた,語彙分割基準の自動生成を提案する.評価実験では話題と文型の特徴が学習データで共起していないテキストについて,従来のPLSA言語モデルと比べ15.48%のperplexity削減が得られた.
著者
伊藤 仁 伊藤 彰則
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.9, pp.1745-1754, 2010-09-01

音声信号を振幅と周波数が時間変化する正弦波成分の和として近似する正弦波モデルでは,非定常部でのパラメータ推定精度が問題となる.本論文では,音声信号の時間軸を第1調波成分の位相軸に置き換える時間軸変換と,正弦波成分の振幅と周波数の非定常性を単純な時変関数で近似する局所変化率変換に基づく正弦波パラメータ推定法を提案する.成人男女75名が発話した900個の単語音声を用いた性能評価実験により,提案法の推定精度を二つの既存手法と比較した.各手法の推定精度は,パラメータから再合成した信号に基づいて入力対残差パワー比(S/R)として定量化した.提案法の平均S/Rは28.4 dBで,時間軸変換を行わずパワースペクトルの局所ピークを用いるPeak-picking法(14.4 dB)や,正弦波成分の振幅の非定常性を考慮しないIF-attractor法(23.4 dB)より高かった.この推定精度の差は,特に入力音声の非定常性が高い場合に大きくなった.これらの結果から,非定常部を含む有声音声の正弦波パラメータの高精度推定において,時間軸変換と局所変化率変換を統合した提案法の有効性が確認された.
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。
著者
栗山 直人 鈴木 基之 伊藤 彰則 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.37-42, 2006-02-04
被引用文献数
3

PLSAは,文章の特徴「話題」を反映した言語モデルを構築する手法である.このPLSA言語モデルの拡張を提案する.前半ではPLSA言語モデルの学習について,既存の複数の方法を比較し,EMアルゴリズムのアニーリングスケジュール最適化についての検討を行う.後半ではPLSA言語モデルを内容語モデルと機能語モデルに分割し,話題(トピック)と話し方(スタイル)を,別々に学習・適応することで従来のPLSA言語モデルよりもより柔軟な言語モデル適応を試みる.その結果学習最適化についてはβを1.0 から特定の値に向けて減少させるアニーリングスケジュールが最適という結果が得られた.内容語・機能語に分割したモデルについてはtrigramに対するPerplexityが従来のPLSA言語モデルの83.90% から82.23% へ改善した.PLSA is a method of composing language model which can reflect the global charactetistics of linguistic context as "topic". We propose more extention of PLSA language model. First, we compare the conventional learning methods of PLSA language model, and examine the optimization of EM annealing schedule. As a result, we found that the best method is to reduce β from 1.0 to some special value. Next, we compose a PLSA language model whose vocabulary set is divided, into content words and function words. Then training and adaptation to topic or style are performed separately. In the experiment, we acheived 82.23% perplexity reduction against conventional way 83.90%.