著者
荒牧 英治 増川 佐知子 森田 瑞樹
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.1, pp.1-8, 2011-05-09

近年のTwitterの普及とともに,そこから有益な情報を抽出する研究の需要が高まっている.本研究ではインフルエンザ流行予測の問題に焦点をあてる.まず,Twitterからインフルエンザに関連した発言を抽出する.次に,SVMを用いた分類器で,その発言者が実際にインフルエンザにかかっているかどうかを判定する.実験では,厚労省報告の症例数と比較し相関係数0.89の精度で流行予測することができ,提案手法の有効性を示した.特に,流行の開始時期においては,相関係数は0.97と高く,最先端の手法であるGoogle Fluトレンドと同等の精度が得られた.本研究によって,Twitter上のテキストが現実の疾病状態を反映していること,また,言語処理技術によって,その情報が抽出可能であることを示した.With the recent rise in popularity and size of social media, there is a growing need for systems that can extract useful information from this amount of data. We address the problem of detecting influenza epidemics. First, the proposed system extracts the influenza related tweets using Twitter API. Then, the SVM based classifies extracts only tweets that include real influenza patients. The experiments demonstrated the feasibility of the proposed approach (0.89 of the correlation to the gold standard). Especially in the rise of the influenza (early stage of the epidemics), the proposed method shows the high accuracy (0.97 correlation), which is the same accuracy to the state-of-the-art method. This paper demonstrated that Twitter texts reflect the real world, and Natural Language Processing (NLP) technique could extracts the information.
著者
内田 照久
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.32, pp.1-6, 2019-06-15

声道長の縮小や拡大を模して,スペクトル包絡の周波数軸を伸長圧縮した声質変換音声では,基本周波数 (fo) の高低関係と声の高さの印象評価が逆転することがある.このピッチ感の錯覚が起こる条件の精査をするため,標準抑揚,平坦抑揚,逆相抑揚,疑似歌声,疑似ささやき声による評価実験を行った.
著者
平井 龍之介 齋藤 佑樹 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2023-SLP-146, no.11, pp.1-8, 2023-02-21

本稿では,連合学習を用いたユーザ参加型の多対多声質変換モデル学習法を提案する.従来の多対多声質変換技術は,多数話者の音声を含むデータセットを用いて声質変換モデルを学習する.しかし,学習されたモデルが多種多様なユーザによる入力音声に対して高品質な声質変換を実現する保証はない.提案手法では,高品質な多対多声質変換を実現する StarGANv2-VC モデルを研究開発者とユーザが協同的に学習し,ユーザが所有する音声データのプライバシーを保護しながら,より多様な話者の音声を変換可能な深層学習モデルを構築する.実験的評価の結果より,提案手法が従来の非分散型学習法と同程度の話者類似性を達成しうることを示す.
著者
高木 信二 倉田 岳人 郡山 知樹 塩田 さやか 鈴木 雅之 玉森 聡 俵 直弘 中鹿 亘 福田 隆 増村 亮 森勢 将雅 山岸 順一 山本 克彦
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-120, no.14, pp.1-9, 2018-02-13

2017 年 8 月 20 日から 8 月 24 日にかけ,ストックホルム ・ スウェーデンで Interspeech 2017 が開催された.Interspeech は音声言語情報処理の分野におけるトップカンファレンスと位置付けられており,今後の本分野の動向に大きく影響を与えている.本稿では,本会議における研究動向,注目すべき発表について報告する.
著者
滝沢 力 平井 重行
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-142, no.55, pp.1-6, 2022-06-10

アニメや映画,ゲームなどの制作現場では,サウンドエンジニア・クリエイターが,経験や知識・技能により効果音を選定・収集・生成・編集している.最近は,プロ以外の人による作品制作は盛んに行われるが,効果音の選定や編集による表現は素人には容易ではない.ただ,オノマトペ(擬音語)として音声で音のニュアンスも含めた効果音を表現することはある程度可能である.そこで,本研究では,オノマトペ音声を用いた効果音合成手法の確立を目指す.特に,様々な種類やニュアンスの表現が含まれる爆発音に焦点を当て,その音響合成手法について取り組む.ここでは,映画やアニメーション等で利用される爆発音の音響データ多数と,それらを口頭でオノマトペとして発話した音声データ多数を用意した.そして,系列変換モデルである Transformer でメルスペクトログラム画像を学習し,爆発音合成(音声から効果音への変換)を試みた.本稿では,Transformer での学習およびメルスペクトログラムからの音響合成モデルの学習について述べ,現状で得られている生成結果について報告する.
著者
倉田 将希 高道 慎之介 佐伯 高明 荒川 陸 齋藤 佑樹 樋口 啓太 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.31, pp.1-6, 2021-02-24

本稿では,音声変換ユーザに目標話者のキャラクタ性を獲得して発話させるためのシステムを提案する.深層学習に基づくリアルタイム音声変換は,人間の発声器官の物理制約を超えて,ユーザの音声から所望のキャタクタ性を持つ音声への高精度な変換を可能にしつつある.しかしながら,音声のパラ言語情報(抑揚・強勢など)の変換は未だ困難であり,ユーザの音声のパラ言語情報が変換音声に直接的に反映されてしまう.また,通常の発話において,人間は自己聴取音の聴取との相互作用により自らの言語情報・パラ言語情報を制御するが,リアルタイム音声変換を用いた発話において,そのような相互作用をもたらす機構は存在しない.そこで本稿では,変換音声をユーザにリアルタイムにフィードバックする自己聴取音制御システムにより,変換音声に所望のキャラクタ性を付与するようユーザを発話変容させるシステムを提案する.実験的評価では,一人称視点(音声変換ユーザ視点)と三人称視点においてシステムおよび変換音声を評価し,(1) 演技経験の少ないユーザに対してシステムの有用性が高いこと,(2) F0 を目標キャラクタに近づけるだけで十分な発話変容効果がみられることを示す.
著者
Xin Wang Shinji Takaki Junichi Yamagishi
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-115, no.2, pp.1-6, 2017-02-10

Neural-network-based mixture density networks are important tools for acoustic modeling in statistical parametric speech synthesis. Recently we found that incorporating an autoregressive model in a recurrent mixture density network, which is referred to as AR-RMDN, enabled the network to generate quite smooth acoustic data trajectories without using the delta and delta-delta coefficients. More interestingly, the new model generated trajectories with a dynamic range similar to that of the natural data, thus alleviating over-smoothing effect. In this work, after explaining the AR-RMDN from the perspective of signal and filter, we compare one AR-RMDN with a modulation-spectrum-based post-filtering method that also eases the over-smoothing effect. It is demonstrated that the AR-RMDN also alters the modulation spectrum of the generated data trajectories but in a different way from the post-filtering method. The AR-RMDN also generates synthetic speech with better perceived quality. Based on the signal and filter interpretation, we further extend the AR-RMDN so that the inverse AR filter can acquire complex poles and stay stable.
著者
伊藤 彰則
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-112, no.10, pp.1-6, 2016-07-21

音声認識の特徴量抽出では,まず入力音声に時間窓をかけて局所的な信号を切り出し,音声信号の局所的な周波数情報を取り出す.この時間窓の位置を少しずつずらしながら分析を行うことで,音声の持つ周波数成分の時間変化を捉えることができる.このとき時間窓をずらす時間間隔がフレームシフトであり,典型的には 5ms~10ms に設定される.本稿では,このフレームシフトを 2 つの点から再考する.一つ目の視点は 「フレームシフトは 10ms で十分なのか?」 という点である.フレームに基づく処理は,音声信号が短い時間で大きく変化しないことを前提としているが,破裂子音などではこの前提がそもそも成立していない.そこで,10ms ごとのフレームの先頭位置のずれによって,抽出される特徴量が大きく変化することを実験的に示す.また,偶然によるフレーム位置の変動に起因する特徴量変動に対応するため,フレーム位置をずらした学習サンプルを学習に用いる方法を提案する.二つ目の視点は,「フレーム位置のずれが学習によって吸収できるのであれば,フレームシフトはもっと長くてもよいのではないか?」 という点である.フレームシフトを実験的に 60ms 程度まで長くして実験を行ったところ,フレームシフト 40ms ではフレームシフト 10ms を越える認識性能が得られ,50ms でも 10ms と同程度の認識性能が得られた.これらの条件では 1 状態 HMM (すなわち GMM) が使われており,認識のための計算量の大幅な削減が期待できる.
著者
得丸 公明
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011-SLP-86, no.16, pp.1-8, 2011-05-09

今日に至るまで,文法とは何か,文法のメカニズムはどうなっているのかということについて,十分に検討が行なわれたり,議論されたり,解明されることはなかった.デカルト派言語学を自認するチョムスキーが提起した難題「ヒトは状況に応じて新しい文を作ることができ,それをたった一度発話するだけで,聞き手がただちにそれを理解できるのはなぜか」を,生成文法論者を含めてまだ誰も解明できていない(1).チョムスキー自身は「この問題が人間の知的な能力の範囲内にはない」,「神の介在なしにはありえない」と述べている(2).だが,未解明の理由のひとつは,構造主義の「形態素」・「遺伝子型/表現型」概念と似て非なる「語形成素」・「深層構造/表層構造」という概念を用いるためではないか.また言語のメカニズムは社会科学でも自然科学でもなく,符号理論として取り扱うべきではないか.筆者は,ヒトの言語は脳内の自律的な神経細胞ネットワーク上で作動するデジタル通信システムであり,文法は情報源符号化と通信路符号化という二つのデジタル符号化メカニズムのシナジー(相乗)効果によって生み出された一連の機能を指し示す音響符号語であると考える.デカルトの結論に反して動物も論理装置や概念をもっており,ヒトのヒト以外の動物に対する質的相違は二重符号化文法に求められる.
著者
土井 啓成 中村 圭吾 戸田 智基 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.18, pp.1-6, 2009-07-10
参考文献数
11

喉頭摘出者が行う発声法の一つに,食道等を用いて音源を生成し,発声を行う食道発声法がある.食道発声法は国内で広く使用されているが,生成された音声は健常者の音声と比較して不自然である.本稿では,食道発声音声の音質改善を目指し,食道発声音声から健常者音声への統計的声質変換を用いた音質改善法 (ES-to-Speech) を提案する.健常者音声のスペクトル特徴量や F₀,非周期成分といった音源特徴量は,それぞれ食道発声音声のスペクトル特徴量から独立に推定する.変換音声の客観評価実験及び,主観評価実験結果から,ES-to-Speech は,食道発声と同等の明瞭性を保ったまま,自然性を大きく改善できることを示す.また,F₀ 推定時に,入力特徴量として食道発声音声のスペクトルと F₀ の併用も試みることで,食道発声音声の F₀ 情報を用いる効果を検証する.This paper proposes a novel method of enhancing esophageal speech based on statistical voice conversion. Esophageal speech is one of the speaking methods for total laryngectomees to speak by generating sound excitations at their esophagus. Although esophageal speech is the major method in Japan, the generated voices sound unnatural. To improve naturalness of the esophageal speech, we propose a conversion method from esophageal speech to normal speech (ES-to-Speech) using a statistical voice conversion technique. Spectral features and excitation features, such as F₀ and aperiodic components, of the normal speech are independently estimated from the spectral features of the esophageal speech based on the maximum likelihood criterion. The effectiveness of ES-to-Speech is evaluated by conducting objective and subjective experiments to demonstrate that the proposed method yields significant improvements in naturalness of esophageal speech while keeping its intelligibility.
著者
得丸 公明
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.16, pp.1-8, 2011-05-09
被引用文献数
1

今日に至るまで,文法とは何か,文法のメカニズムはどうなっているのかということについて,十分に検討が行なわれたり,議論されたり,解明されることはなかった.デカルト派言語学を自認するチョムスキーが提起した難題「ヒトは状況に応じて新しい文を作ることができ,それをたった一度発話するだけで,聞き手がただちにそれを理解できるのはなぜか」を,生成文法論者を含めてまだ誰も解明できていない(1).チョムスキー自身は「この問題が人間の知的な能力の範囲内にはない」,「神の介在なしにはありえない」と述べている(2).だが,未解明の理由のひとつは,構造主義の「形態素」・「遺伝子型/表現型」概念と似て非なる「語形成素」・「深層構造/表層構造」という概念を用いるためではないか.また言語のメカニズムは社会科学でも自然科学でもなく,符号理論として取り扱うべきではないか.筆者は,ヒトの言語は脳内の自律的な神経細胞ネットワーク上で作動するデジタル通信システムであり,文法は情報源符号化と通信路符号化という二つのデジタル符号化メカニズムのシナジー(相乗)効果によって生み出された一連の機能を指し示す音響符号語であると考える.デカルトの結論に反して動物も論理装置や概念をもっており,ヒトのヒト以外の動物に対する質的相違は二重符号化文法に求められる.To this date, the mechanism of grammar has not yet been fully investigated, discussed or clarified. Why human can compose an appropriate new sentence in a particular situation, and, why, with hearing it only once, others can understand it immediately?(1) This Chomsky's conundrum has not yet been solved and explained by anybody including Chomsky himself. He, a Cartesian Linguist in his definition, indicated that this conundrum is "not within the range of human intellectual capacities" and "requiring divine intervention"(2). However the author surmises that the application of concepts such as "formatives" and "deep/surface structures" by Chomskians, which are alike but different from those of "morpheme" and "signifie/signifiant" in structuralism, are confusing and could be responsible for the failure. The author surmises that the human language is a digital communication system, operated by autonomous nerve cell networks inside brain, and that its grammar is a series of phonetic functional codes generated by a synergy of two digital coding mechanisms, namely the source coding and the channel coding. It seems that, despite the Cartesian conclusion, non-human animals have logical device, acquire concepts and establish concept system, and that the qualitative superiority of humans against non-human animals seems to be the double coding grammar.
著者
本間 幸徳 貞光 九月 西田 京介 浅野 久子 松尾 義博
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-116, no.26, pp.1-6, 2017-05-08

本稿では,ある文書におけるユーザの検索要求に対し,一つ以上の文を回答として提示する部分文書検索手法を提案する.検索要求によっては提示すべき文が文書中に散在する場合があるため,提案手法では,文間の関係性に基づいて推定した文書構造を用いることで,文書に散在する文の集合を部分文書として抽出する.また抽出された部分文書について,分散表現を利用した意昧ベクトルを作成し,検索スコアの算出に用いることで検索精度の向上を図る.評価実験により,文書構造に基づいて部分文書を抽出し,対応する意昧ベクトルを検索に用いることで,ユーザの検索要求に適した検索結果が得られることを示す.
著者
相原 龍 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.15, pp.1-6, 2014-12-08

本報告では,非負値行列因子分解 (NMF) を拡張したMultiple Non-negative Matrix Factorization (Multi-NMF) を提案し,任意話者の発話を特定話者の発話へと変換する多対一声質変換を行う.従来,声質変換は入力話者の声質を出力話者のものへ変換する話者変換を目的として広く研究されてきた.声質変換において最も一般的な手法は混合正規分布モデル (GMM) を用いた統計的手法であり,統計的声質変換の枠組みは複数の事前収録話者から構成されるパラレルデータセットを用いて,任意の話者から他の任意の話者への変換へと拡張されている.一方,統計的声質変換に代わる手法として NMF を用いた Exemplar-based 声質変換がある.この手法は,NMF が有する雑音除去機能と,Exemplar-based 手法がもつ変換音声の自然性保持という利点から研究が進められている.しかしながら,NMF 声質変換においては入力話者と出力話者のパラレルデータの存在が前提であり,これまでは任意話者からの声質変換は不可能であった.そこで本報告では,Multi-NMF による,入力話者の発話データを学習せずども変換できる多対一声質変換を提案する.入力話者の発話スペクトルは,事前に学習された複数の話者の発話スペクトルの線形和で表現され,その結合重み係数を用いて目標話者の発話スペクトルヘと変換される.この手法は,多対多声質変換や,話者性を制御可能な声質変換へと応用可能であると考えられる.Voice conversion (VC) is being widely researched in the field of speech processing because of increased interest in using such processing in applications such as personalized Text-To-Speech systems. Statistical approach using Gaussian Mixture Model (GMM) is widely researched in VC and eigen-voice GMM enables one-to-many and many-to-one VC from multiple training data sets. We present in this paper an exemplar-based VC method using Non-negative Matrix Factorization (NMF), which is different from conventional statistical VC. NMF-based VC has advantages of noise robustness and naturalness of converted voice compared to GMM-based VC. However, because NMF-based VC is based on parallel training data of source and target speaker, we cannot covert voice of arbitrary speakers in this framework. In this paper, we propose a many-to-one VC using Multiple Non-negative Matrix Factorization (Multi-NMF). By using Multi-NMF, arbitrary speaker's voice is converted to target speaker's voice without any training data of input speaker's. We assume that this method is flexible because we can adopt it to many-to-many VC or voice quality control.
著者
大家 眸美 宮下 芳明
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.15, pp.1-2, 2013-01-25

Twitter 等におけるネガティブな感情表現の不快感を緩和する手法として,筆者らはこれまでポジティブな表現に言い換える手法を提案してきたが,本稿では,その文章の信頼性を下げる言い換えを行うことによって緩和する手法を提案する.信頼性を下げる手法としては,文章に文字化けを混入させたり,誤変換を行ったり,むやみなカタカナ語を使用したり,文末を変更することによって他人が言っていたことにしたり夢オチにすることによって実現している.
著者
神田直之 武田龍 大淵康成
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013-SLP-97, no.8, pp.1-6, 2013-07-18

本稿では Deep Neural Network (DNN) を用いた日本語音声認識に関する検討結果を述べる.DNN とは多数の階層を持った人工ニューラルネットワークモデルである.近年,多層のネットワークでも効率的に最適化できる手法が発表され,各種の認識タスクで従来法を上回る性能を示したことから,再び大きな注目を集めている.音声認識分野においても DNN に基づく音響モデルに関して既に多数の研究が行われ改善が進む一方で,日本語のテストデータを用いた検討結果は限られた学習データを用いた小規模な実験に限られていた.本稿では日本語話し言葉コーパス (CSJ) をテストセットとし DNN に基づく音響モデルに関する各種の評価を行った結果について述べる.特に 270 時間の学習データを用いた評価において,音素誤り最小化 (MPE) 学習された Gaussian Mixture Model に基づく音響モデルと比較して最大 28.2 %の認識誤りが削減され,DNN の認識性能の高さを日本語においても確認した.また DNN に基づく音響モデルにおいて,学習用の言語リソースが限られた状況でデータを擬似的に増加させる手法について新たに検討を行い,認識精度がさらに向上することを確認した.
著者
石井 隼太 戸田 智基 猿渡 洋 Sakuriani Sakti 中村 哲
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.1, pp.1-8, 2011-10-21
被引用文献数
2

静粛な環境などの発声行為自体を躊躇する状況においても音声入力を可能とする技術として,微弱な体内伝導音声である非可聴つぶやき (Non-Audible Murmur: NAM) を用いた音声認識 (NAM 認識) が提案されている.NAM は多人に聴受されないほど小さなささやき声であり,体表に直接圧着させる NAM マイクロフォンによって収録される.その一方で,ユーザの動作によっては,NAM マイクロフォンの圧着環境が大きく変動するため,収録信号に雑音が混入する.本報告では,ユーザ動作に起因する雑音が NAM 認識に与える影響を調査し,2 つの NAM マイクロフォンで収録されるステレオ信号を用いた雑音抑圧法を提案する.また,実験的評価により,提案法の有効性を示す.Recently, speech recognition with Non-Audible Murmur (NAM) was proposed in order to enable to use speech interfaces in quiet environments where we hesitate to speech. NAM is a very soft wispered voice detected with NAM microphone, which is one of the body-conductive microphones. The detected NAM signal suffers from noise caused by speaker's movement because the setting condition of NAM microphone is changed. In this paper, we investigate the effect of the noise on NAM recognition and propose a blind noise suppression method using a stereo signal detected with two NAM microphones. Experimental evaluations are conducted to show the effictiveness of the proposed method.
著者
矢澤 櫻子 寺澤 洋子 平田 圭二 東条 敏 浜中 雅俊
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012, no.32, pp.1-6, 2012-01-27

本稿では Eugene Narmour が提唱した暗意実現モデルを用いたメロディ構造分析と,その結果について報告する.暗意実現モデルではある音列とある音列同士の関係を連鎖構造と定義されている.我々は与えられたメロディから連鎖構造を抽出するシステムを実装し,実際に暗意実現モデルにおいて定義されている連鎖構造が発生するかを確認した.This paper describes a melody analysis based on Implication-Realization Model(IRM), which was proposed by Eugene Narmour. In IRM, The relation between a tone series and some tone series is defined as chain structure. We mounted the system which extracts chain structure from the given melody, and checked whether the chain structure actually defined in IRM would occur.
著者
橘 誠 才野 慶二郎 久湊 裕司
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013-SLP-99, no.22, pp.1-6, 2013-12-12

HMM 音声合成は統計的な韻律のモデル化により,話者性やスタイルを柔軟に多様化することができる.本稿では,その表現力を波形素片接続型の歌声合成システムである VOCALOID™ に取り入れる方法として,歌唱表現が現れる重要な特徴と考えられるピッチの変化をHMMでモデル化,生成する歌唱スタイル生成手法を提案する.HMM音声合成手法を歌唱スタイルのモデル化に利用する際には,未知の音高に対しても適切なパラメータ生成を行う必要がある.そこで本研究ではピッチベンドチェンジを用いたモデル化を提案する.また,長い時間伸ばされる音符に対して自然な変動を付与するため,ノート内を複数のセグメントに分割した単位でモデル化し,多段階のコンテキストクラスタリングを導入して楽曲構造と音符内の変動を階層的に表現する.また,この手法をVOCALOID™3の機能である Job Plugin として組み込んだ例を紹介する.
著者
磯健一 颯々野学
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.4, pp.1-6, 2013-10-18

「音声アシスト」 は音声対話によってモバイル端末から多様な情報へのアクセスを提供するアプリケーションである.ヤフーが提供する各種情報サービス (経路探索,天気情報,ニュース,ウェブ検索,地図,店舗情報,Q&A,知恵袋) を自然な音声対話によって一元的に利用することができるほか,モバイル端末の操作 (アラーム設定,アプリ起動,電話発信,カレンダー・連絡先検索,ウェブ読み上げ) もサポートしている.ユーザの発話は超大語彙の音声認識によってテキストに変換され,意味理解サーバに送られて発話意図や固有名,数値表現などが抽出されて,発話意図に応じて用意した応答テンプレートにもとづいて応答文が作成され,モバイル端末上で音声合成により応答される仕組みである.本稿では 「音声アシスト」 を構成する音声認識プラットフォーム YJVOICE と音声対話を支える自然言語処理技術について紹介する."ONSEI Assist" is a voice dialog application for mobile devices that enables various kinds of information retrieval including train route, weather, news, web, map, shops and Q&A. It also supports mobile device operations such as alarm setting, application launch, dialing, calendar and address book search. The user input utterance is recognized by a very large vocabulary speech recognition system and sent to a server for semantic analysis which extracts the user's intention including named entities and prepares a response sentence. This article describes the speech recognition platform "YJVOICE" and the natural language processing technologies for "ONSEI Assist".
著者
布目光生 黒田由加 水岡良彰 森田眞弘
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.23, pp.1-6, 2013-12-12

弱視者や識字障碍者でも読みやすいとされる DAISY コンテンツは,電子書籍端末や音声合成技術の普及により教科書などのコンテンツで徐々に広がることが期待されている.しかし,そのコンテンツ作成作業は,ボランティアベースで多くの時間がかかっていたため,エンドユーザが必要とする図書を,簡単に手早く作成することが困難だった.本報告では,こうした課題に対応するための音訳支援システムを提案する.音声合成技術の活用と,テキスト解析誤りに依存する読みやアクセント誤りの修正手段を Web アプリとして提供することで,視覚・識字障碍者のための朗読コンテンツを,音訳ボランティアや保護者・教職員などの作業者が簡単に作成できる環境の提供を目指す.また,従来の作業手順と比較し,本提案システムを活用した場合の作業期間に関する予備評価の結果についても述べる.DAISY content is expected to gradually gain popularity among the visually impaired according to the prevalence of e-book reading devices and the development of text-to-speech technology. However, the development of DAISY-formatted e-books, which is undertaken by volunteers, is a time-consuming process, making it difficult to meet the needs of end users. In this report, we propose a content transliteration system that can convert plain text to DAISY content including formatted HTML and audio data via automatic text-to-speech technology. Furthermore, using the GUI of the proposed system, users can correct text and accent information by inputting "ruby-type" data. Through this functionality, we aim to target support from transliterate workers such as volunteers, teachers, and parents to make and edit contents easily and quickly for the people with visually impaired. Finally, we present the results of a preliminary evaluation using the proposed method in order to compare it with the conventional method.