著者
石川 永和 伊藤 彰則 牧野 正三
雑誌
全国大会講演論文集
巻号頁・発行日
vol.46, pp.55-56, 1993-03-01

近年の自然言語処理システムでは文法をはじめとする各種言語情報は各単語ごとに分散記述,データベース化し,維持・管理することが多い.しかしこのデータベース化にはコストがかかること,タスクごとに変更を迫られるなどの点から作成の自動化が望まれている.これに当たっては大量のテキストを解析しなければならないが,辞書未登録語(未知語)については検出を行い,言語情報を付与する必要がある.本稿ではこの未知語検出に関する一方法を提案する.この方法は文節間の依存関係を表現した文節間文法を基礎とするもので,前報告で述べた疑似文節を用いた未知語検出法に採り入れることにより検出率が向上した.
著者
大道 竜之介 伊藤 仁 伊藤 彰則 牧野 正三
出版者
情報処理学会
雑誌
情報処理学会研究報告. [音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.85, pp.J1-J6, 2010-05-27
参考文献数
10

歌唱音声の新たな評価指標として 「熱唱度」 の導入を提案する.聴取実験の結果から,歌唱音声中のビブラートおよび呼吸音が,熱唱の知覚に関与することがわかった.本稿では, 歌唱音声におけるビブラート,有声呼吸音,声門破裂の 3 つの特徴を挙げ,これらを定量化する音響特徴量について検討する.34 名の歌唱音声に対する聴取実験から得た,熱唱度の聴取実験スコアと,複数の音響特徴量との重回帰分析を行い,それらの間に重相関係数 0.45 を得た.We propose introducing "enthusiasm" as a novel index of singing voice. The result of the listening experiment by human subjects suggests that both vibrato and breath sounds in singing voice concern human perception of enthusiasm. This paper describes our experiments to quantify 3 features in singing voice; vibrato, voiced breath sounds and glottal plosion. As a result of the multiple linear regression analysis between perceived enthusiasm score evaluated by the listening experiment with singing voice recordings of 34 people and some quantified acoustic features, we reached multiple correlation coefficient of 0.45.
著者
伊藤 彰則 牧野 正三 城戸 健一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:09151923)
巻号頁・発行日
vol.J74-D2, no.9, pp.1147-1155, 1991-09-25

連続音声認識のための新しい統語処理アルゴリズム「機能語予測CYK法」について述べる.機能語予測CYK法は,CYK法をベースとし,これに機能語の予測機能を加えたものである.機能語を予測しながらマッチングすることにより,効率的な処理を行うことができる.次に,この機能語予測CYK法にビームサーチを導入したアルゴリズムを提案する.また,機能語を効率良く予測するための正規文法(機能語オートマトン)を導入する.これは,従来の文節処理に用いられてきた有限オートマトンと同じものが使用できるため,文節内文法での各種の制約が利用できる.ビームサーチと機能語オートマトンの導入によって,非終端記号数の増加に伴う記憶容量および計算量の増加を抑えることができる.このビームサーチを用いた機能語予測CYK法と,文節検出+統語処理の2段階の認識方式との比較実験を行った結果,計算量・精度ともに機能語予測CYK法が優れていることがわかった.
著者
安倍 正人 嶋 明弘 上田 隆 金井 浩 牧野 正三 城戸 健一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.28, no.12, pp.1306-1317, 1987-12-15
被引用文献数
1

筆者らは ディジタル信号処理技術を応用して 音響および音声信号処理の研究を行っている.具体的には 音響信号処理分野では機械系の故障診断 音源位置の推定を行っており 音声信号処理の分野では不特定話者単語音声認識に関する研究を行っている.これらの処理はいずれも膨大な計算量および記憶容量を必要とし かつ 最終的にはリアルタイムで行わなければならない.そのため 汎用計算機では演算速度 リアルタイム性および処理の連続性の点で問題があり DSPでは記憶容量 演算精度およびソフトウェアの柔軟性の点で問題がある.このため 筆者らはホスト計算機のバックエンドプロセッサとして ディジタル信号処理を主な目的とした以下に示す3つの特徴を持つ高速演算装置μKIDOCHを開発した.(1)ホスト計算機との間のデータ転送ネックを解消するため パイプライン化メモリにより結合する(2)マイクロプログラム方式によるパイプライン処理を行う.(3)データパスあるいはアドレスパスとして使える3本の32bitパスおよび128bitプログラムバスを用いることにより 複数の演算器が並列に動作する.本報では 試作した高速演算装置以μKIDOCHの特徴とクロスアセンブラを用いて作成した種々のプログラムにより検討したμKID0CHの性能について報告する.
著者
市川 拓人 鈴木 基之 伊藤 彰則 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.81, pp.33-38, 2007-08-01
被引用文献数
3

本稿では,ピッチ抽出を行わないハミング入力楽曲検索システムについて検討する.ピッチ抽出は,どれほど高精度なものでもピッチ抽出誤りを避けることができず,検索精度を低下させる原因となっている.本システムでは,従来用いられているデルタピッチの代わりに,2つの対数周波数領域パワースペクトルの相互相関関数を音程特徴量として用い,さらに楽曲中に存在しているであろう全音程の確率モデルを用意しておく.連続する2つの音符が観測された時,この特徴量と確率モデルを用いて,全音程についての尤度を計算する.このシステムの利点は,統計的なモデル化を行うことにより,ピッチ抽出誤りのような致命的な誤りを起こしにくいということである.そして実際に検索実験を行ったところ,ピッチによる検索精度を最大4.9%上回る結果となった.This paper describes a query-by-humming (QbH) music information retrieval (MIR) system without pitch extraction. In pitch extraction based system, pitch extraction errors inevitably occur that degrades performance of the system. In this system, a cross-correlation function between two logarithmic frequency spectra is extracted as a tonal feature instead of deltaPitch, and probabilistic models are prepared for all tone intervals assumed to exist in the music. When two signals corresponding to two contiguous notes are given, likelihoods are calculated for all possibility of tone intervals. The advantage of this system is that it is hard to occur a fatal error such as a pitch extraction error because extracted features are modeled stochastically. From a experimented result, the top retrieval accuracy given by the proposed method have exceeded the system based pitch extraction by 4.9 %.
著者
石川 永和 伊藤 彰則 牧野 正三
雑誌
全国大会講演論文集
巻号頁・発行日
vol.44, pp.177-178, 1992-02-24

現在我々は大規模な言語データベースの構築を行なおうとしている。データベース作成にあたっては大量のテキストを解析することが必要であり、これらのテキストを対して十分な語彙を持つ辞書を用意する必要がある。しかしながらあらゆるテキストに対処できる辞書を構成することは日本語の造語能力などの点から、因難である。またデータベース作成の趣旨からはテキスト中に辞書に記載されていない語が存在した場合この語の文法的性質や意味推定を行ない、最終的には新語として辞書に単語登録する段階に達することが望まれる。本稿ではデータベース作成の第一段階として行なわれる形態素解析において辞書未登録語を検出することを目的とする。従来さまざまな形態素解析法が提案されているがこれらは解析対象となるテキストに辞書未登録語が現れないことを前提としているものが多く、未登録語が存在する場合の動作は保証されていない。ここでは一旦形態素候補を作成した後、新たな形態素候補を加えることにより、未知語が存在しても形態素解析が行なえるアルゴリズムを開発することをねらう。
著者
栗山 直人 鈴木 基之 伊藤 彰則 牧野 正三
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.106, no.442, pp.55-60, 2006-12-15

PLSAは言語モデルの文脈適応に一般的に用いられる手法である.このPLSAの新しい利用方法を提案する.PLSA言語モデルの語彙を「話題語」「文型語」「汎用語」の3クラスに分割し,話題語PLSAモデルと文型語PLSAモデルを別々に学習・適応した後に3つのモデルを統合する.また新聞記事とCSJ間での品詞分類の出現パターン変化に基づいた,語彙分割基準の自動生成を提案する.評価実験では話題と文型の特徴が学習データで共起していないテキストについて,従来のPLSA言語モデルと比べ15.48%のperplexity削減が得られた.
著者
栗山 直人 鈴木 基之 伊藤 彰則 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.37-42, 2006-02-04
被引用文献数
3

PLSAは,文章の特徴「話題」を反映した言語モデルを構築する手法である.このPLSA言語モデルの拡張を提案する.前半ではPLSA言語モデルの学習について,既存の複数の方法を比較し,EMアルゴリズムのアニーリングスケジュール最適化についての検討を行う.後半ではPLSA言語モデルを内容語モデルと機能語モデルに分割し,話題(トピック)と話し方(スタイル)を,別々に学習・適応することで従来のPLSA言語モデルよりもより柔軟な言語モデル適応を試みる.その結果学習最適化についてはβを1.0 から特定の値に向けて減少させるアニーリングスケジュールが最適という結果が得られた.内容語・機能語に分割したモデルについてはtrigramに対するPerplexityが従来のPLSA言語モデルの83.90% から82.23% へ改善した.PLSA is a method of composing language model which can reflect the global charactetistics of linguistic context as "topic". We propose more extention of PLSA language model. First, we compare the conventional learning methods of PLSA language model, and examine the optimization of EM annealing schedule. As a result, we found that the best method is to reduce β from 1.0 to some special value. Next, we compose a PLSA language model whose vocabulary set is divided, into content words and function words. Then training and adaptation to topic or style are performed separately. In the experiment, we acheived 82.23% perplexity reduction against conventional way 83.90%.
著者
古賀 秀昭 牧野 正三 城戸 健一
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.46, no.10, pp.795-801, 1990-10-01
被引用文献数
8

聴覚に関する生理学的及び心理学的知見から、ローカルピークが母音認識の手掛かりとして重要であると考えて、著者らは単語中の母音の認識をローカルピークを用いて行っている。しかし、これまで認識実験と聴取実験との比較検討は行われていない。今回、単語中の母音について聴取実験を行うと共に、同じ音声資料を用いてローカルピークと通常行われているLPCケプストラム係数による認識実験も行い、それらを比較検討した。認識実験は聴取実験で10人中の8人以上が正答したもので標準パタンを作成したもので行った。特徴量と識別規則を含めた検討の結果、部分的には差が見られないものもあるが、全体的にはローカルピークによる認識結果の方が聴取実験結果に近いという結果になった。
著者
森 大毅 阿曽 弘具 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.63, pp.89-96, 1994-07-21
被引用文献数
5

trigramモデルは自然言語の局所的性質の良い近似となっており、パターン認識全般において広く用いられている。本報告では、日本語文書中の文字系列のtrigramモデルを用いた文字認識後処理の手法について述べ、実際に文字認識実験を行うことでその有効性を明らかにする。新聞の社説を統計処理することによりモデルを構築し、そのしぼり込み効果をパープレキシティを用いて評価する。その際2種類のスムージング法を導入し、削除補間法を用いた場合の予測性能が優れていることを示す。3種類の文書に対して文字認識後処理を適用した結果、誤字の回復率が75%から90%以上と高い効果が得られた。Being a good representation of local feature of natural languages, trigram model is widely applied to various pattern recognition system. In this report, a postprocessing method for character recognition using the trigram model of the character sequences in Japanese documents is described, and its advantage is revealed by practical experiments. The model is trained by statistical processing of leading articles, then the ability to reduce ambiguity is evaluated by the perplexity. In this procedure, two smoothing methods are introduced, and the predictive power of deleted interpolation method is shown to be superior. Experimental results of postprocessing for three kinds of documents show that the correction rates are 75 to over 90 percent.
著者
伊藤 彰則 王 欽悦 鈴木 基之 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.50, pp.41-46, 2005-05-26
参考文献数
9

自然な対話の映像の中から笑いを検出するための手法について述べる。笑いは対話中の表情としてもっとも多く見られるものであり、これを検出することはユーザの心的状態の推定にとって有用であると考えられる。また、笑い声を高精度に検出できれば、対話音声の認識誤り削減に有効である。本稿では、カメラで撮影したユーザの顔から表情を認識する手法と、マイクで収録したユーザの音声から笑い声を検出する手法を組み合わせることで、笑いの検出精度を向上させる方法を検討する。顔画像による表情認識では、顔の特徴点検出に基づく特徴量を用い、特定話者の場合で再現率・適合率とも80%以上の精度で自然な対話映像から笑いの表情を認識することが可能になった。また、GMMによる音声の識別と画像情報を組み合わせた笑い声の検出手法を提案した。実験結果より、音声と画像の統合により適合率が向上することが示され、最終的には再現率・適合率とも70%以上の値が得られた。This paper describes a method to detect smiles and laughters from the video of natural dialogue. A smile is the most common facial expression observed in a dialogue. Detecting a user's smiles and laughters can be useful for estimating the mental state of the user of a spoken-dialogue-based user interface. In addition, detecting laughter sound can be utilized to prevent the speech recognizer from wrongly recognizing the laughter sound as meaningful words. In this paper, a method to detect smile facial expression and laughter sound robustly by combining a image-based facial expression recognition method and an audio-based laughter sound recognition method. The image-based method uses a feature vector based on feature point detection from face images. The method could detect smile faces by more than 80% recall and precision rate. A method to combine a GMM-based laughter sound recognizer and the image-based method could improve the accuracy of detection of laghter sounds compared with methods that use image or s und only. As a result, more than 70% recall and precision rate of laughter sound detection was obtained from the natural conversation videos.