著者
宮原 誠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.59, pp.39-46, 1996-06-07
被引用文献数
34

コンテンツの時代になった.マルチメディアという道具を使って,複雑な人間社会の対話をし,頭の中にある発想を具体化する形態が見えてきた様に思われる.超高品位画像のマルチメディア分野では芸術家や,芸能研究者を主人として敬意をはらわないとこの分野の研究開発はレベルの高いものにならないであろう.ここでは,所謂"電気紙芝居"で,品位,実在感,質感等の高度の芸術的印象をどこまで再現できるかについて,Audio?Visualによる感性(深み,幽玄,実在感,雰囲気)情報伝送インフラ研究の研究開発と,それに基づくExtra High Quality Audio?Visual System研究のスタートについて述べる.The basic studies are indispensable to understand fundamental issues and possible solutions for the high end of the quality range. It is considered that some new important psychophysical factors are important: tone of color, gradient and high-toned gloss. To discover the important psychophysical factors, we have started to develop a new imaging system which attends not only to the spatial resolution, but also to the resolution of a signal level. We have named this system the "Extra High Quality Imaging System". In developing the Extra High quality Imaging System, We will make test images which convey not just an outwardly appearance but which also reflect an interior existence, that is, the higher order sensation of images.
著者
後藤崇行 常松 祐一 渡辺 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.66, pp.31-36, 2005-07-08

フィルムグレインは、フィルムで撮影したコンテンツ特有の模様である。一般に雑音成分として捉えられがちだが、フィルムグレインによってフィルムコンテンツの質感を表現することができるため、質感を表現したい場合、除去されないことが望ましい。しかし、フィルムグレインを含んだ画像に圧縮符号化を施すと符号化による影響を受け失われてしまう。特に近年標準化された動画像符号化方式H.264/AVCにおいては、デブロッキングフィルタや4x4整数変換により、フィルムグレインが失われやすくなっている。H.264/AVCの拡張方式FRExt(Fidelity Range Extensions) では、映画コンテンツなどフィルムグレインを含む高解像度画像において画質改善を行う様々な符号化ツールが追加された。そこで筆者らは、更なるフィルムグレインの再現性を考慮したH.264/AVC符号化方式について検討してきた。本稿では、符号化モード決定のコスト値について考察し、フィルムグレインの再現性を更に向上させる手法の検討を行う。Film grain is a specific texture of film conttents. Though it generally tends to be recognized as a noise,it is preferable for film grain not to be removed to express the feeling of quality of film contents. However,film grain is influenced and lost easily by encoding. Especially,in H.264/AVC which is the state-of-the-art video coding standard,it is more easier for film grain to be lost by performing de-blocking filter and 4x4 integer-transform. In FRExt(Fidelity Range Extensions) which extended the conventional H.264/AVC,various coding tools were added to improve the quality of high definition size images such as movies containing film grain. We have been studying the H.264/AVC encoding method considering the fidelity of film grain. In this paper we consider the method to improve the fidelity of the film grain further by changing the cost value of the encoding mode decision.
著者
鈴木 惇也 板垣 秀星 境田 慎一 井口 和久 甲藤二郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.125, pp.51-56, 2007-12-13
被引用文献数
4

本稿では、デコーダに付加情報を与えて復号画像の画質改善を行う動画像符号化方式に関する検討を行なう。はじめに、一枚の静止画像を互いに独立に符号化し、その復号画像を重ね合わせることによる量子化誤差の低減効果を示し、次に、その効果の動画像符号化への応用として、デコーダに補助情報として符号化規格を超える精度の動きベクトルを与えることによる符号化画質改善手法を提案する。さらに、エンコーダでのベクトル検出条件と動き補償・合成の参照画像について改善を加えた動画像符号化方式を提案し、画質改善効果と圧縮効率の向上を ITE 標準動画像を用いた実験によって示す。This paper presents a new video coding method which improves PSNR of decoded pictures by using additional information. Firstly, we show a pixel shift effect which brings PSNR improvement by composing multiple compressed images extracted from an original image and, as an application of the pixel shift effect, we then propose a video coding method which sends higher precision motion vectors to a decoder as additional information. We especially focus on how to select effective motion vectors at an encoder and how to decide mixture of decoded pictures for improving PSNR. Finally, we show experimental results that present improving R-D characteristics of H.263+.
著者
掘鉄郎 相澤 清晴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.125, pp.157-162, 2003-12-19
被引用文献数
2

近年,コンピュータが我々の日常生活において常に身近な存在となる,ウェアラブル・ユビキタスなコンピューティング環境が整いつつある.本稿ではこのような環境を想定し,小型なカメラにより個人の体験を記録し続けることで,あたかもユーザーの日記・自伝のようなもの(ライフログビデオ)を簡単に作成するようなシステムの構築を試みている.このシステムでは,小型カメラとマイクロフォンから取得したビデオだけではなく,それと同期をとりながら,ユーザーのコンテキストを推定するために様々なセンサー群からのデータを常時取得することができる.加えて,それらセンサー群のデータとデータベース等とを組み合わせて利用することでユーザーのコンテキストを推定し,それに基づいて取得したビデオを効率的に検索することが可能となっている.One of the characteristics of Wearable/Ubiquitous Computing is that computres are embeded in our life. In such computing environments, digitization of personal experiences will be made possible by continuously recording using a wearable video camera. It can lead to "automatic life-log application". In this paper, we attempt to develop "context-based video retrieval system for the life-log applications". This wearable system is capable of continuously capturing data not only from a wearable camera and a microphone, but also from various kinds of sensors to extract the user's context. In addition, the system provides functions which make efficient video browsing and retrieval possible by using data from these sensors and some databases.
著者
山下諒 谷 謙治 高見 一正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.69, pp.51-56, 2008-07-16
被引用文献数
1

ユビキタス環境の進展と共に、個人の趣味嗜好に応じたコンテンツ配信サービスが求めわられている。ユーザのログ情報を解析することで趣味嗜好を分析・推定し、個人の状況に適合するコンテンツを推薦するサービスも提供されつつある。通話以外にも高度な機能が付加された携帯電話において、そのユーザの多くが利用しているメールに着目し、多くのユーザが利用している絵文字を部分的に分析することにより、気分を推定する方式が提案されている。本稿では、気分推定精度の向上を図るため、絵文字だけでなく様々な感情表現に利用されている顔文字も解析する方法を提案する。具体的には、各文字から連想する気分要素を抽出し、各文字を気分要素とそのベクトル値で定義する.また、評価システムを試作し、アンケートにより提案方式の有効性を評価する.更に、ユーザの気分と密接に関係している音楽に着目して、「コードの数」 「音の強弱」 「メロディパターン」 などの曲調特徴に基づく楽曲推薦法を提案する。As the ubiquitous environment is taking root, there are calls for services that deliver content appropriate for the individual user's personal interests and preferences. Services are already being provided that deduce the interests or preferences of the user by analyzing his or her log data and provide content appropriate for his or her physical / mental / emotional state. A method of deducing the state of mind of the user has been proposed, which analyzes pictographic characters in emails sent by mobile phones. In this paper, we attempt to improve the accuracy of state-of-mind deduction by analyzing not only pictographic characters but also emoticons that many people use to express their feelings explicitly. We have developed an algorithm for extracting state-of-mind elements associated with each pictographic character or emoticon, and defining it with vector values of these elements. We have developed a prototype system, and verified the effectiveness of the algorithm by having a group of students use the system. We have applied the algorithm to the selection of music, which is considered to be close related to people's feelings. Specifically, we have proposed a method of selecting an appropriate piece of music based on a music type, which is represented by the "number of chords", "sound strength", and "melody pattern" in a piece of music.
著者
中村 元紀 井上 知洋 久保田 稔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.106, pp.31-36, 2002-11-14
被引用文献数
2

将来あらゆる場所にコンピュータが存在し それらが動的にネットワークを構成して通信しあうユビキタス環境が実現された場合 様々なコンピュータがいつでも共通的にアクセスできるデータはオンラインに保存しておくべきである.一方、それらのコンピュータは無線リンクなどを通じてその場に応じて一時的なネットワークを構成する。このような動的なネットワークトポロジの頻繁な変化はオンラインデータの可用性の低下を防ぐ、分散ストーレジ管理方式を提案してきた.本稿では、提案方式の有効性を定量評価により確認した結果について述べる.Computers will exist in all places in the future, and when ubiquitous computing environment where they constitute opportune networks dynamically is realized, data which can be accessed commonly with anytime should retain in the online. On one hand, dynamically is realized, data which can be accessed commonly with anytime should retain in the online. On one hand, dynamic change of network topologies causes the decrease of availability of the online data. We have proposed a distributed storage management system which is adapted for dynamic change of environments and prevents the fall of availability. In this paper, the evaluation result is described, and the effectiveness of the poposed method is explained.
著者
菊入 圭 仲 信彦 大矢 智之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.66, pp.55-58, 2005-07-08

これからのモバイル通信は、通信速度の飛躍的な向上と、それによる従来にないリッチなコンテンツを利用できることが期待されている。本稿では、次世代の通信形態のひとつとして、モバイル立体音響通信について述べる。まずモバイル立体音響通信の主要なアプリケーションを紹介し、そのシステム構成を述べる。これらシステム構成の中で、最もモバイル通信に適していると思われるサーバ・レンダリング型システムの課題は、伝送レートの増大、再生される立体音場のユーザの動きへの追従が挙げられる。これらの課題を解決するため、パラメトリックステレオ符号化を用いたサーバ・レンダリング型システムを考え、クライアント側のデコーダにおけるローカル立体音響レンダリング方法を提案する。計算機シミュレーションにより、本提案方法で修正されたバイノーラル信号は、線形補間したHRTFを畳み込んで生成したバイノーラル信号とほぼ同程度の音響定位性能であることを確認した。This paper describes applications and audio signal processing technologies for mobile spatial audio communications,which will be one of the next generation mobile communications. The authors propose a local spatial audio rendering method for parametric stereo decoders. The proposed method enables server-side-rendering systems to follow user`s head moving faster. From computer simulation results,a binaural signal modified by the proposed localizes a sound image comparable to a binaural signal convolved with an interpolated HRTF..
著者
馬場 昌之 西川 博文 加藤 嘉明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.125, pp.71-76, 2007-12-14
被引用文献数
1

インターネットの普及と高速化に伴い,ビデオやオーディオなどのメディアデータをリアルタイムに IP 伝送するようになってきた.しかしながら利用するネットワーク環境により TCP しか使用できないこともある.本稿では,TCP を使用したリアルタイム伝送方法を提案する.既存の TCP を用いて,無線環境での使用にも耐えうるように,バーストパケットロスに対応できるようにパケット伝送方法を制御する.本提案方法では,複数の TCP コネクションを用意し,1パケットずつ異なるコネクションで送信する.これによりパケットロスが発生しても他のパケットに遅延を与えず,バーストロス時にもフロー制御によるレートの低下が発生しない.Real-time multimedia communication over UDP/IP has been put into practical use because of the popularization of the high-speed Internet. However there are some communication environments that can be used only TCP/IP. In this report, we propose a new real-time transmission method using general TCP/IP and dealing with some consecutive packet losses occurred in wireless communication environment. Our proposed method uses multiple TCP connections, and sends packets over different TCP connections. This method can recover some consecutive packet losses quickly and keep the throughput performance at a high level.
著者
柴田 正啓 林 正樹 吉村 俊郎 柳町 昭夫 高橋 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.90, pp.17-24, 1995-09-14
被引用文献数
1

本稿では、人間の自然なふるまいとしての「見る」行為に着目した、映像メディアのための新たなヒューマンインタラクションの試みを紹介する。映像メディアにおける「見る」行為とは、完成した作品を「見る」ことの他に、映像を作るために対象を「見る」という2つの側面がある。この2つに対応し本稿では、実際に存在しない仮想世界を「見て」映像化するための仮想カメラと、見る人の視線によって提示内容が変化していくインタラクティブ番組について述べる。This report introduces our attempts of making new human interfaces for a video medium. Watching is a fundamental ability for a human and is a basis for a human-video interaction (HVI). There are two aspects for the watching act in HVI. First, directors watch objects through cameras. Second, people watch video products on screens. According to the two aspects, we have made a virtual camera system that visualizes a virtual world and a video display system based on eye-tracking
著者
水野 雅紀 岩田 享 加藤昇平 伊藤 英則 粥川裕平 寺島 正義
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.24, pp.67-72, 2003-03-07
被引用文献数
1

本論文では,人間の身体から発生している生体信号を測定し,生体信号に含まれているカオス特性をサウンド系列に変換することにより,個人固有のサウンド(マイサウンド)を生成するシステムを提案する.生体信号として指尖容積脈波を採用し,本システムで生成されたマイサウンドを傾聴させ,傾聴者の脳波を測定・解析した.本論文では,癒しとの関連があると考えられるα波の活動を評価することにより,マイサウンドの効果について考察する.In this paper, we propose a sound generation system, which generates an individual sound (called my-sound) peculiar to a personal from his biological signals. In our system, the chaotic characteristics of biological signals are transformed into several sound sequences. My-sound is composed of the several sound sequences. In an experiment, we adopt a finger plethysmogram (pulse-wave) as the biological signal, and have measured the brain-waves of my-sound listeners. In this paper, we also report the investigation of alpha wave, which is considerd to be relative to relaxation, and then discuss the effectiveness of my-sound for healing.
著者
清水 智行 米山 暁夫 柳原 広昌 中島 康之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.99, pp.23-28, 2003-10-03
被引用文献数
4

H.264はMPEG-4やH.263などの従来の動画像圧縮符号化方式に比べて最大で2倍の符号化効率を目標とした符号化方式である。しかし、従来方式に比べて符号化処理の複雑さが非常に大きいため、実用化のためには符号化処理を効率よく行なうための手法が必要である。本稿では、H.264の複数ブロックサイズによる動き補償予測処理において、ブロックサイズの選択および動きベクトル探索処理を高速に行なうための手法について検討する。具体的には、最初に小さなブロックサイズでの動き探索を行ない、隣接ブロックの動きベクトルの類似性から、より大きなブロックサイズを適応的に選択し、かつ探索範囲を絞り込むことによって、H.264参照モデルJMと比較して0.1-0.4dBのPSNR低下で予測誤差計算回数を6-7%に削減することができた。H.264 is a new video coding standard, which has coding efficiency about twice as much as existing standards such as MPEG-4, H.263, etc. Because it has larger computation complexity than existing standards, faster coding algorithms are desired for practical use. We propose a fast algorithm for multiple block size motion estimation. In this algorithm, motion vectors in smaller-sized block are searched at first, and a more suitable block size is chosen and search range is limited according to similarity of the motion vectors. As a result, search steps are reduced to about 6-7% of the H.264 Reference Model (JM), while loss of PSNR is at most 0.1-0.4 dB.