文献一覧: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (雑誌)

3 0 0 0 2値多重音響特徴ベクトルを用いた類似音楽探索とその高速化(マルチメディアパターン処理)

著者: 永野秀尚柏野邦夫村瀬洋
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.86, no.11, pp.1657-1667, 2003-11-01
被引用文献数: 1

本論文では,多重奏音響信号をクエリーとして多重奏音響信号から類似する音楽を探索する類似音楽探索法とその高速化手法を提案する.本類似音楽探索においては多重奏音響の類似性に基づいた探索を高速に行う必要がある.そこで,まず,多重奏において同時に発生する複数の音の有無に着目した2値多重音響特徴ベクトルを提案する.本特徴は多重奏音響信号の類似性に基づいた高速探索に適している.そして更に,本特徴を用いた探索における高速化手法を導入する.本手法は類似度行列のスパース化により探索空間を制限し,より高速な探索を行う.216曲の実験用音楽データベースを用いた探索実験では,例えば,楽曲単位の探索において,クエリーの長さが平均19秒のとき,スペクトル特徴を用いた場合に62.5%であった精度が,提案の2値多重音響特徴ベクトルを用いることにより89.3%にまで向上した.また,本高速化手法においては,精度をほとんど損なわずに,DP照合を用いたずらし照合法に比べ約1.6倍から18倍の高速化を達成した.

https://ci.nii.ac.jp/naid/110003170862

3 0 0 0 ビデオシースルー型拡張現実感のための実時間ステレオ画像合成 (知能情報メディア論文特集)

著者: 神原誠之大隈隆史竹村治雄横矢直和
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.82, no.10, pp.1775-1783, 1999-10-25
被引用文献数: 37

現実環境と仮想環境を融合する技術は拡張現実感と呼ばれ,現実環境に情報を付加することが可能であることから新たな情報提示手法の-つとして注目されている.拡張現実環境をユーザに提示するには,現実環境と仮想環境の正確な位置合せ,画像合成,及びユーザへの提示を実時間で行う必要がある.本論文では,現実環境と仮想環境の時間的な同期がとれることから,両者の位置ずれが生じないという特徴をもつ,ビジョンセンサとビデオシースルーの組合せを用いる拡張現実感のための画像合成手法を提案する.本手法では,現実環境中に配置されたマーカをHMDに取り付けた2眼のステレオカメラで撮影し,この画像から位置合せに必要なカメラパラメータを推定する.同時に,現実物体と仮想物体の正確な前後関係を表現するために,現実環境の奥行情報を実時間で取得する.その際,奥行推定を拡張現実感に特化することで計算量を削減し,実時間処理を可能にした.

https://ci.nii.ac.jp/naid/110003183548

3 0 0 0 データベース中の代表的なテクスチャと色を用いて作成した問合せ画像による画像検索(画像検索, <特集>画像の認識・理解論文)

著者: 望月貴裕蓼沼眞藤井真人伊藤崇之
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.88, no.8, pp.1729-1739, 2005-08-01
被引用文献数: 3

本論文では, 検索対象データベース(DB)に出現頻度の高いテクスチャ及び色集合(代表テクスチャ, 代表色)を用いて描画した問合せ画像による画像検索手法を提案する. 代表テクスチャは, DBの画像特徴ベクトル集合のクラスタ分析により抽出する. また, 代表色は, DBのHSVヒストグラムに基づき求める. 更に, 提案手法によるユーザインタフェースを試作し, これを用いた画像検索実験により, 利用者の検索意図を反映した良好な結果が得られることを確認した.

https://ci.nii.ac.jp/naid/10016796958

3 0 0 0 音声認識研究の動向

著者: 中川聖一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.83, no.2, pp.433-457, 2000-02-25
被引用文献数: 66

本論文では音声認識の最近の研究動向について述べる.まず, はじめに, 現在の機械による音声認識能力がまだ人間の能力に及ばないことを述べ, 特に音響モデルの改善が必要なことを論じる.次に実用化にとって重要な雑音等に頑健な特徴パラメータや前処理について述べる.情報理論やパターン認識の立場から認識対象と同じ環境で収集された多量の音声サンプルを用いることが有用であることを指摘する.次に音声認識の中心技術である音響モデルと言語モデルについて述べる.まず, 音響モデルの中心技術となっている隠れマルコフモデル(HMM)の原理と限界を述べ, 最近の改良研究について詳述する.言語モデルの音声認識における役割は, 発声され得ない認識候補の除外, すなわち探索空間の削減にある.言い換えればエントロピーを小さくするモデルが好ましいという観点から統計的な言語モデルの最近の研究動向を述べる.最後に, 音声認識システムを構築するのに留意すべき点について論じる.

2013-04-16 19:20:31
3 + 0 Twitter

https://ci.nii.ac.jp/naid/110003183694

3 0 0 0 手指動からの特徴抽出によるリアルタイム個人認証

著者: 長田礼子尾崎哲青木輝勝安田浩
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.84, no.2, pp.258-265, 2001-02-01
被引用文献数: 17

本論文では, パスワードの代わりに手指の動きによる動画像を用いたリアルタイム個人認証システムを提案する.本論文で提案する手指動認証は, 秘密情報型, バイオメトリクス型の双方の特性を兼ね備えており, 従来技術と比較して正確な個人認証が可能となる特徴がある.本研究では同じ手指動パターンにも個人的な動作特徴があることに着目し, この特徴を抽出することにより個人認証を行う.また, 装置が簡単で, 自然な形での入力であるという点でもシステムは優れている.

2012-07-08 12:33:48
3 + 1 Twitter

https://ci.nii.ac.jp/naid/110003184079

3 0 0 0 m重マルコフ連鎖モデルを用いた日本語の誤字・脱落・誤挿入誤り文字列の検出と訂正法

著者: 荒木哲郎池原悟塚原信幸小松康則田川崇史橋本憲久
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.83, no.6, pp.1516-1528, 2000-06-25
被引用文献数: 10

漢字OCR, ワープロ, 音声認識装置などの入力装置を使用して計算機に入力された日本語文には, 通常, 誤字, 脱落・誤挿入文字などの誤りが含まれるため, これらの誤りを自動的に検出し訂正する技術が期待されている.本論文では, 誤字誤り, 誤挿入誤り, 及び脱落誤り(いずれも誤りは1文字以上)を対象に, m重マルコフ連鎖モデルを用いて誤りの種別を識別し, 誤り文字列を訂正する方法を提案する.また, 本手法の効果を検証するため, 2重マルコフ連鎖モデルを利用して, 漢字仮名交じり表記された新聞記事文(1, 200文)を対象に, それらが誤字, 脱落文字及び誤挿入文字を含む場合(いずれも誤りは, 擬似的に生成された1文字または2文字)について, 誤り種別及び文内の誤り位置と文字数を自動的に検出, 並びに訂正する実験を行った.その結果, オープンデータの誤字, 誤挿入, 脱落の誤りを, 単に, 誤りとして検出(これらの3種のいずれかの誤りとして検出)する精度は, それぞれ, 1文字の誤字または誤挿入誤りの場合は適合率77.2%, 再現率95.0%, 2文字の誤字または誤挿入誤りの場合は適合率79.3%, 再現率99.5%, また, 脱落誤りの場合は適合率61.3%, 再現率36.5%の精度で検出できることがわかった.更に, 誤りの種別や誤り長を含めた検出精度は, 誤字または誤挿入の1文字誤りの場合は, 検出が適合率60.1%, 再現率73.0%で行うことができ, 更に訂正は誤字の場合が適合率41.2%, 再現率50.0%, また誤挿入の場合が適合率41.9%再現率52.0%の精度で自動的にできることがわかった.これと比べて, 脱落誤りの検出と訂正は容易ではないが, 検出が適合率54.6%, 再現率32.5%, また訂正が1文字の場合には適合率29.4%, 再現率17.5%の精度で行えることがわかった.オープンデータとクローズドデータによる適合率, 再現率の差は, 標本量の増加に伴い, 新聞記事文5年分の付近で, かなり接近してくることがわかった.

2011-09-14 22:47:34
3 + 1 Twitter

https://ci.nii.ac.jp/naid/110003223937

3 0 0 0 制約相互部分空間法を用いた環境変動にロバストな顔画像認識 : 照明変動の影響を抑える制約部分空間の学習 (<小特集>パターン認識のための学習 : 基礎と応用)

著者: 福井和広山口修鈴木薫前田賢一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.82, no.4, pp.613-620, 1999-04-25
被引用文献数: 85

顔画像認識において照明変動に対するロバスト性は不可欠な特性である. 本論文では"制約相互部分空間法"を用いた照明変動にロバストな顔画像認識法を提案する. 制約相互部分空間法は, パターン変形に対する高い吸収能力をもつ相互部分空間法の拡張で, 前処理として"制約部分空間"に射影された入力部分空間と辞書部分空間のなす最小角度を類似度と定義する. ここで制約部分空間を照明変動成分が含まれない部分空間とすれば, 最小角度, つまり類似度は照明変動に影響されないことになる. この要求を満たすために, 異なる人物の顔パターン分布を表す二つの部分空間に対してその差異を表す"差分部分空間"を導入する. これを同じ照明条件で生成した様々な人物の部分空間の組合せに対して求め, 求めた差分部分空間の集合の主成分空間を制約部分空間とする. 照明条件が大きく異なる顔画像を用いた評価実験により提案法の有効性を示す.

2010-07-26 00:17:00
3 + 0 Twitter

https://ci.nii.ac.jp/naid/110003183470

3 0 0 0 放送型スポーツ映像の構造を考慮した重要シーンへの自動アノテーション付け (<特集>画像の認識・理解論文特集)

著者: 新田直子馬場口登北橋忠宏
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.84, no.8, pp.1838-1847, 2001-08-01
被引用文献数: 24

我々は放送型スポーツ映像に対して映像・試合の構成に従い,ストーリー上重要と考えられる部分への意味的なアノテーションの自動生成を試みる.まずクローズドキャプションと呼ばれる言語ストリームから,キーワード列探索によりスポーツ映像において重要な意味をもつ実際に試合が進行している部分を抽出した上で,各部分でのプレイ・プレイを行った選手に関する情報を抽出しアノテーションを生成する.次に生成したアノテーションを付ける映像位置を決定するため,画像ストリームに対するマッチングにより同様に試合進行部分を抽出することで映像分割を行う.最後に両ストリームの時間的同期をとることによって,生成したアノテーションを映像に対して与える.本手法をスポーツ映像の例として実際のアメリカンフットボールの試合映像に適用し実,験を行った結果,再現率75%,適合率90%で映像の正確な試合進行部分に対して自動的にアノテーションを付けることが可能となった.

https://ci.nii.ac.jp/naid/110003184039

3 0 0 0 Boostingの過学習とその回避(情報論的学習理論論文小特集)

著者: 小野田崇
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.85, no.5, pp.776-784, 2002-05-01
被引用文献数: 9

AdaBoostの有する高い汎化能力は,Support Vector Machineで導入されたmarginの概念を適用することで解明されている.しかしながら,この汎化能力の高さは,学習データ中に誤分類や非常に大きい雑音を含んだデータがない場合に限られるものである.誤分類や大きい雑音を含む場合,AdaBoostは高い汎化能力を実現できないことが実験的に示されている.また,これらの結果はmarginの改善という視点から,Schapireらの研究によって理論的な裏付けが行われている.本論文では,Schapireらの議論に基づき,AdaBoostの起こす過学習を避けるため,AdaBoostが最小化する目的関数に正則化項を導外した新たなアルゴリズムAdaBoost_<Reg>,ν-Arc,ν-Boostを提案する.

2008-08-16 22:10:33
3 はてなブックマーク

https://ci.nii.ac.jp/naid/110003184304

2 0 0 0 複数のレーザレンジスキャナを用いた歩行者トラッキングとその信頼性評価(画像認識, コンピュータビジョン)

著者: 中村克行趙卉菁柴崎亮介坂本圭司大鋸朋生鈴川尚毅
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.88, no.7, pp.1143-1152, 2005-07-01
被引用文献数: 22

本論文では, 複数のレーザレンジスキャナを用いた歩行者トラッキングの方法, 及び駅での検証実験について述べる.提案手法は, ネットワークを利用して複数のレーザスキャナを同期させ, 得られた足断面のレンジデータから歩行者トラッキングを行う.トラッキングアルゴリズムは次の機能で構成される: レンジデータのクラスタリングによる足候補の検出, 足候補のグルーピングによる歩行者候補の検出, 歩行者候補の動きベクトル検出, 歩行モデルに基づく拡張カルマンフィルタによる既存軌跡の延長処理.提案手法を東京都内の駅構内コンコースに適用した結果, 最大で約150人を同時にトラッキングすることができた.トラッキング精度は, 通勤ラッシュ時において8割を超えた.広範囲における高密度の群集計測への応用が期待される.

2018-05-17 09:45:19
2 + 1 Twitter

https://ci.nii.ac.jp/naid/10016795882

2 0 0 0 顔向きや表情の変化にロバストな顔認識システム"Smartface"

著者: 山口修福井和広
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.84, no.6, pp.1045-1052, 2001-06-01
被引用文献数: 48

ヒューマンインタフェースやセキュリティの分野で, 顔画像を用いた個人識別技術が注目されている.本論文では, ポータブルPC上で動作する顔認識システム"Smartface"について述べる.ユーザに負担の少ない顔認識システムを構築するためには, 顔向きや表情の変化といった人物の変動を吸収する認識法が必要である.本システムでは, ロバストな顔特徴点検出法と動画像を用いた個人識別アルゴリズムを採用する.また, それに伴って増大する計算コストの削減法について述べる.実装したアプリケーション機能は, (1)個人識別による音声応答, 環境設定, (2)顔認識付きスクリーンセーバ, (3)リアルタイム変装シミュレーション, である.本システムは, 特殊な画像処理ハードウェアを用いることなく, カメラを接続したPC上でソフトウェアのみで動作する.

2017-11-24 14:54:50
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110003184153

2 0 0 0 実世界視覚情報を対話的に学習・管理する人間型ソフトウェアロボット (知能情報メディア論文特集)

著者: 長谷川修坂上勝彦速水悟
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.82, no.10, pp.1666-1674, 1999-10-25
被引用文献数: 9

本研究では,システムのモニタ上に人の上半身の姿を有する3次元コンピュータグラフィックス像(人間型ソフトウェアロボット:以下ロボット)を表示し,これに視覚や聴覚を用いた対話機能や,表情や視線,指さしジェスチャの細やかな制御機能を与え,実空間を対象とした人と計算機の円滑なインタラクションを図る.試作したロボットは,あらかじめ登録(学習)した実空間中(オフィス内)の人物や物体を視覚的に探索・捕そくし,それらの発見位置/時刻を履歴として管理するとともに,その3次元的な位置を発話と視線/指さしジェスチャで人間に示すことができる.またこのロボットは,新たな対象物の登録を対話的に行えるほか,その人物の名前や物体の名称/所有者なども併せて登録でき,こうした機能を活用して室内の状況に関して人間(ユーザ)と簡単な対話を行う(タスクをこなす)ことが可能である.

2017-03-11 06:35:08
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110003183537

2 0 0 0 目つぶり排除機能をもつ顔撮影システム

著者: 助川寛佐藤俊雄岡崎彰夫
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.84, no.6, pp.1053-1060, 2001-06-01
被引用文献数: 6

本論文では, 目を閉じた状態を避けて人物の顔を撮影する画像処理システムについて報告する.目つぶりを排除する処理は, 分離度フィルタによる目の候補点の検出と, 辞書とのマッチングによるパターンの分類を中心に構成され, 更に動きの特徴を解析することで目の開閉状態を判断する.合図後の1秒に相当する5画面のうち開眼状態を検出すればその画像を出力し, すべての画面で開眼状態を検出できなければ合図直後が画面を出力する顔撮影システムを試作した.740名に対して性能を評価した結果, 目を開けた状態で撮影する撮影成功率は99.8%以上を達成することができた.

2017-01-17 09:01:11
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110003184154

2 0 0 0 特定色判別と領域限定を用いた円形道路標識の抽出

著者: 松浦大祐山内仁高橋浩光
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.85, no.6, pp.1075-1083, 2002-06-01
被引用文献数: 44

現在,高度道路交通システム(Intelligent Transport Systems:ITS)及びその1構成システムであるAHS(Advanced cruise-assist Highway Systems)についての研究が盛んである.このAHSを構成する一つとして,道路カラー画像から道路標識を抽出・認識し運転者に注意を喚起するシステムが考えられている.本論文では,実用的な処理時間で円形道路標識を抽出可能な新しい手法を提案する.提案手法は,入力となる道路カラー画像から道路標識に使用されている色(特定色)を判別した後,その分布状況によって抽出処理の対象領域を限定することにより,処理時間の大幅な削減を図っている.更に,抽出領域に占める特定色の面積比率を利用することにより,抽出精度の向上と更なる処理時間の短縮を図っている.53枚の道路カラー画像を用いた評価実験の結果,94.7%の高抽出率を達成するとともに,平均処理時間が約2.18秒とほぼ実用的な処理時間を達成できることが示された.

2016-08-25 01:38:21
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110003184270

2 0 0 0 IR q-正規分布族に関する考察

著者: 田中勝
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.85, no.2, pp.161-173, 2002-02-01
被引用文献数: 3

本論文では,非加法的エントロピーであるTsallisエントロピーの平衡分布に2次までのq-モーメントの存在を要求したときに得られる確率分布について考察する.この確率分布は一つのパラメータqと平均と分散を指定することにより特定の確率分布を表すようになる.例えば,q=1のときは通常の正規分布を表し,q=2のときはCauchy分布を表す.ただし,q=2のCauchy分布の場合は2次のモーメントは存在しないので,形式的に確率分布関数の中に現れるパラメータσ^2は単にスケールファクタと解釈する.特にq=1+2/(n+1)のときは`t-分布'が得られるが,この場合も2次モーメントが存在しない場合には,確率密度関数の中に現れるパラメータσ^2をスケールファクタとして解釈する.また,q=-∞の場合には標準偏差の2倍(2σ)の幅をもつ一様分布が得られる.すなわち,ここで考察する確率密度関数は,サポートがコンパクトな一様分布からサポートが非コンパクトな正規分布を経て,`t-分布'やCauchy分布を経由して非コンパクトなサポートをもつ一様分布(完全に平たんな分布)までを,パラメータqを通じて滑らかに結ぶことのできる確率密度関数である.ここでは,この確率密度関数をq-正規分布と呼ぶ.q-正規分布と,従来知られている正規分布を含む確率分布族との最も重要な違いは,通常の正規分布を含む確率分布族では,正規分布のみが情報量すなわちBoltzmann-Shannonエントロピーを最大化するものとして明確なエントロピーとの関係が付けられるのに対して,q-正規分布では,パラメータqにより決定されるすべての確率分布は,必ずそのqの値に応じたエントロピー(Tsallisエントロピー)をただ一つもっており,その対応するエントロピーを最大化するという例外のない明確な情報量との関係をもつことである.このようなq-正規分布による期待値には,通常の期待値のほかに,エスコート分布による期待値の2通りの期待値が考えられる.それぞれについてモーメントを得るための一般的な公式も与える.また,q-正規分布はqについて滑らかなので,正規分布の周りで展開することができる.つまり,他の確率密度関数を正規分布を用いて近似することができる.このことについても併せて考察する.更に,q-正規分布p_q(χ:μ,σ)は,エスコート分布を介して,他のq-正規分布p_<1/(2-q)>(χ:μ,√<(3-q)/(5-3q)σ>)と双対な関係をもつことも示す.

2016-06-20 22:12:30
2 + 2 Twitter

https://ci.nii.ac.jp/naid/110006246726

2 0 0 0 顔面筋に基づいた顔構成要素モデルによる表情変化の認識

著者: 太田寛志佐治斉中谷広正
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.82, no.7, pp.1129-1139, 1999-07-25
被引用文献数: 32

顔面筋に基づく顔構成要素モデルを用いた表情の認識手法を提案し, 表情の時間的変化の認識について述べる. 顔モデルは, 眉・目・口それぞれの顔構成要素の可変モデルからなる. 各モデルは数個の制御点と顔面筋の収縮方向のベクトルで構成される. 制御点の移動方向は顔面筋が収縮する方向と一致しているため, モデルの変形は実際の顔構成要素と同じ変形規則をもつ, 顔動画像にモデルをマッチングさせることで, 顔構成要素の動きの追跡ができ, 顔面筋の収縮度が求められる. 得られた収縮度を要素とする表情パターンと, あらかじめ決定されている表情標準パターンとを比較することで各表情の表出度が得られる. 表情表出度は, 顔に表れている表情のめいりょうさを示しており, 値の大小から表情を識別する. また, 表情表出度の時間的変移から表情の発生・持続・終了を検出できる.

2016-05-02 14:03:10
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110003183454

2 0 0 0 パーソナルエージェント指向の仮想社会「PAW」の評価 (知能情報メディア論文特集)

著者: 松田晃一上野比呂至三宅貴浩
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.82, no.10, pp.1675-1683, 1999-10-25
被引用文献数: 36

最近のコンピュータ技術とネットワーク技術の進歩により,サイバースペースを実現するための基盤が整ってきた.このような環境の中,3Dのマルチユーザ仮想空間の実用化研究がなされ,参加したユーザが同じ仮想空間内で同じ体験を共有できるメディアとして実現されてきた.今後の重要なステップとしては,このメディアを仮想社会にまで昇華させることである.我々は,これまで開発してきたCommunityPlaceシステム上に,パーソナルエージェント指向の仮想社会PAW(Personal Agent World)を構築し,数百人の同時アクセス,数千人の延べアクセスを目標とした大規模仮想社会の実験を行ってきた.PAWは,アバタとテキストなどによるコミュニケーションという従来の仮想空間のもつ機能に加え,ユーザと一緒に行動する犬型のパーソナルエージェント,社会的・環境的なインフラストラクチャをもつ仮想社会である.本論文では,PAWのインターネット上での公開実験に関して,その設計方針,ユーザプロファイル,特性,コミュニティについてその結果を報告し,今後の課題について考察する.

https://ci.nii.ac.jp/naid/110003183538

2 0 0 0 IR 変調スペクトルの重要な成分のみを選択的に用いた雑音に強い音声認識

著者: 金寺登荒井隆行船田哲男
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.84, no.7, pp.1261-1269, 2001-07-01
被引用文献数: 41

CMS法や動的特徴量を用いることにより, 音声認識性能が向上することが知られている. これらの手法では特徴パラメータの時間軌跡を操作している. この時間軌跡を周波数次元で表したものは変調スペクトルと呼ばれる. よってCMS法や動的特徴量は, 変調スペクトルを操作しているものとみなせる. また音声認識情報のほとんどが1〜16Hzの変調周波数バンドに存在することが明らかになってきた. そこで本研究では, 音声認識情報を担う変調スペクトル成分のみを特徴量として用い, 数字音声認識実験を行った. 広く用いられているRASTAではIIRフィルタを用いて約1〜12Hzの変調周波数バンドを抽出しているのに対し, 本論文では位相ひずみの少ないFIRフィルタを用いることにより認識性能が向上することを確認した. また, この特徴量と一般によく用いられている動的特徴量を含めたMFCCを種々の雑音環境(SNR 10dB)において比較した結果, 認識誤り率が平均3%改善されることを確認した. 更に重要な変調周波数バンドを複数のバンドに分割すると, 認識誤り率が平均8%改善された.

2015-06-25 01:00:13
2 + 5 Twitter

https://ci.nii.ac.jp/naid/110003183977

2 0 0 0 モデル依存傾斜制限型の連続DPを用いた鼻歌入力による楽曲信号のスポッティング検索

著者: 橋口博樹西村拓一張建新滝田順子岡隆一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.84, no.12, pp.2479-2488, 2001-12-01
被引用文献数: 23

本論文は, 鼻歌から抽出される音高の差(音程)の時系列を検索入力として, それに類似する区間を楽曲の音響分析パターン時系列中から見出す検索手法の提案を行う.提案手法(Model driven path Continuous Dynamic Programming)は, スポッティング検索可能な連続DPを拡張した手法であり, 参照モデルの時系列自体が, 連続DPで用いられる傾斜制限の型を直接定めていることに特徴がある.本論文では, ポピュラー音楽20曲について鼻歌検索実験を行い, 本提案手法の有効性を示す.

https://ci.nii.ac.jp/naid/110003184205

2 0 0 0 時系列アクティブ探索法のための特徴ひずみに頑健な確率デイザボーテイング (<特集>画像の認識・理解論文特集)

著者: 黒住隆行柏野邦夫村瀬洋
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.84, no.8, pp.1817-1825, 2001-08-01
参考文献数: 18
被引用文献数: 10

既知の音や映像(目的信号)が長時間の音や映像(蓄積信号)のどの時点にあるか探索する問題(時系列探索)において,高速かつ高精度に探索する手法を提案する.時系列探索における問題点は,音や映像の特徴にビデオのダビングや各種圧縮方式などによるひずみが発生することである.そのようなひずみが激しく起こると,探索精度が低下する.本論文では,そのようなひずみを吸収するための手法として,確率ディザボーティングを提案する.これは,ひずみの確率分布を学習により求め,その確率分布をヒストグラム上に表現するものである.ビデオのダビングや圧縮が起こった映像を探索する実験では,いずれのひずみにおいても探索精度の改善が見られた.例えば,ダビングを4回行った1時間の蓄積信号から5秒の目的信号を探索する場合では,従来法より探索精度が4.5%改善し,本手法の有効性が確認された.本手法により,様々なひずみに対して頑健なマルチメディア探索が可能になると考えられる.

https://ci.nii.ac.jp/naid/110003184037