著者
馬場口 登 栄藤 稔 佐藤 真一 安達 淳 阿久津 明人 有木 康雄 越後 富夫 柴田 正啓 全 柄東 中村 裕一 美濃 導彦 松山 隆司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.102, no.155, pp.69-74, 2002-06-20
被引用文献数
35

電子情報通信学会パターン認識・メディア理解研究会の下で検討,作成した映像処理評価用映像データベース(VDB:Video Data Base)について述べる.このデータベースは編集効果(シーン切替),カメラワーク,テロップの出現,音声品質という点においてテレビ放送に匹敵する品質の素材映像をもち,ニュース,ドラマ,ドキュメンタリー,情報番組(料理,観光)などのジャンルの映像からなる.また,ショット境界やシナリオ情報をMPEG7形式のメタデータとして付与している.各種の映像処理アルゴリズムを比較評価するためのベンチマークデータとして利用されることが期待される.
著者
天野 美紀 上原 邦昭 熊野 雅仁 有木 康雄 下條 真司 春藤 憲司 塚田 清志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.3, pp.915-924, 2003-03-15
被引用文献数
11

映像の編集とは,素材映像の中から編集に用いることができるショットを選択し,それらを接続する作業である.これらのショットの接続の仕方は無限に存在する.しかし,作者側の意図することを視聴者に正確に伝えることを目的として編集した場合,ある普遍的な規則が存在する.これを「映像文法」と呼ぶ.本稿では,編集作業を支援することを目的として,映像文法に基づいた自動編集システムを提案する.本システムでは,まず,素材映像からショットの切り出しと,切り出した個々のショットに対して属性値の付与が行われる.次に,映像文法をルール化したプロダクションシステムを用い,推論を重ねることによって,属性値を付与された素材映像集の中から適切なショットを選択し編集を行うようになっている.The video editing is a work to produce the final video with certain duration by finding and selecting appropriate shots from material videos and connecting them.In other to produce the excellent video,this process is generally conducted according to the set of special rules called ``video grammar''.In order to make video grammar applicable,the metadata such as shot size or camera work included in shots have to be extracted and indexed.The purpose of this study is to develop an intelligent support system for video editing system where these metadata are extracted automatically and then the video grammars are applied to them.
著者
相原 龍 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.15, pp.1-6, 2014-12-08

本報告では,非負値行列因子分解 (NMF) を拡張したMultiple Non-negative Matrix Factorization (Multi-NMF) を提案し,任意話者の発話を特定話者の発話へと変換する多対一声質変換を行う.従来,声質変換は入力話者の声質を出力話者のものへ変換する話者変換を目的として広く研究されてきた.声質変換において最も一般的な手法は混合正規分布モデル (GMM) を用いた統計的手法であり,統計的声質変換の枠組みは複数の事前収録話者から構成されるパラレルデータセットを用いて,任意の話者から他の任意の話者への変換へと拡張されている.一方,統計的声質変換に代わる手法として NMF を用いた Exemplar-based 声質変換がある.この手法は,NMF が有する雑音除去機能と,Exemplar-based 手法がもつ変換音声の自然性保持という利点から研究が進められている.しかしながら,NMF 声質変換においては入力話者と出力話者のパラレルデータの存在が前提であり,これまでは任意話者からの声質変換は不可能であった.そこで本報告では,Multi-NMF による,入力話者の発話データを学習せずども変換できる多対一声質変換を提案する.入力話者の発話スペクトルは,事前に学習された複数の話者の発話スペクトルの線形和で表現され,その結合重み係数を用いて目標話者の発話スペクトルヘと変換される.この手法は,多対多声質変換や,話者性を制御可能な声質変換へと応用可能であると考えられる.Voice conversion (VC) is being widely researched in the field of speech processing because of increased interest in using such processing in applications such as personalized Text-To-Speech systems. Statistical approach using Gaussian Mixture Model (GMM) is widely researched in VC and eigen-voice GMM enables one-to-many and many-to-one VC from multiple training data sets. We present in this paper an exemplar-based VC method using Non-negative Matrix Factorization (NMF), which is different from conventional statistical VC. NMF-based VC has advantages of noise robustness and naturalness of converted voice compared to GMM-based VC. However, because NMF-based VC is based on parallel training data of source and target speaker, we cannot covert voice of arbitrary speakers in this framework. In this paper, we propose a many-to-one VC using Multiple Non-negative Matrix Factorization (Multi-NMF). By using Multi-NMF, arbitrary speaker's voice is converted to target speaker's voice without any training data of input speaker's. We assume that this method is flexible because we can adopt it to many-to-many VC or voice quality control.
著者
岩成 英一 有木 康雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRU, パターン認識・理解
巻号頁・発行日
vol.93, no.431, pp.23-30, 1994-01-21
被引用文献数
24

DCT成分を用いて動画からシーン変わり目の(カット)を検出する方法を研究している。動画中の各フレームをブロックに分割し、DCT成分を求めると、同一シーン中の隣接するフレーム間では類似しているという特徴がある。このことに注目し本研究では、隣接するフレーム間で変化を求めてカットを検出するのではなく、連続するフレームによってクラスタを形成する方法を提案している。カットの検出は、形成された二つのクラスタを分割するフレームとして結果的に求めることが出来る。これにより、従来法で問題となっていた明るさの変化に敏感に反応するという点を改善することが出来るようになった。今回は、クラスタを形成する際のブロックサイズ、フレーム幅、使用するDCT周波数成分について最適なパラメータを求める実験を行なった。また、従来法との比較実験を行ない、本手法が、従来法で困難とされたいた、明るさが変化する場合、フラッシュがたかれた場合、暗い動画に対しても有効であることを示した。
著者
櫻井 光康 有木 康雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.364, pp.37-44, 1996-11-15
被引用文献数
29

オン・デマンドに基づくニュース・システム(ODN)を検討している。このシステムでは、希望する情報だけを取り出すことのできるニュースデータベースを構築しておく必要がある。そのためには、ニュースに対する索引付けや内容による分類を、人手ではなく自動化して行なう必要がある。ニュースは、内容を伝える音声、内容をまとめる文字、状況を伝える映像といったメディアで構成されているので、ニュース音声から索引付けや分類のためのキーワードを抽出する処理が必要不可欠となる。この点から今回、ニュース音声の記事分類と索引付けを行なった。記事分類では、単語スポッティングによりキャスターの音声からキーワード列とその存在確率を取り出す。キーワード毎に10分野の分類に対する寄与率を求めておき、この寄与率とキーワードの存在確率をもとに、確率的にニュース記事を分類する。本報告では、単語スポッティングの比較、キーワードの存在確率と寄与率の計算方法、索引付けの方法について述べる。
著者
田頭 茂明 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ヒューマンコンピュータインタラクション(HCI) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.21, pp.99-104, 1996-02-29
被引用文献数
1

音声を入力インターフェースとした情報検索システムの構築を試みた。具体的には、マルチメディア情報の一つとして、ニュース音声を対象としている。「日本はPKOに参加することになりました」と言うようなニュース音声を聞いていて、<PKO>と言う用語を知らない場合、その場で「そのPKOってどういう意味?」と知らない用語を音声で反復して尋ねることができるシステムである。これにより、情報を得ているメディアと同じメディアを使って情報検索することができる。このシステムでは検索対象のキーワードをニュース音声とユーザー発話との共通区間と設定している。共通区間を切り出す場合に問題となる話者性の違いに対しては、部分空間射影に基づく話者正規化を用いている。We tried to construct a system of enquiring unknown words, by spontaneous repetition, appearing in spoken sentences of TV. For example, we hear "Japan would join PKO." from TV news and if "PKO" is an unknown word, then we can enquire it by saying "What's the PKO?" The system recognizes the word "PKO" and explains its meaning. The system estimates a common section between news speech and user speech and recognizes the word corresponding to the common section. We solved a problem of speaker difference in extracting common sections by speaker subspace projection.
著者
薛 強 滝口 哲也 有木 康雄
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.37, no.3, pp.IDS-C_1-9, 2022-05-01 (Released:2022-05-01)
参考文献数
16

Generation-base dialogue system tends to produce generic response sentences. In order to improve the diversity of response sentences by the generation-base dialogue system, the response text retrieved by the retrieval-base model can be input to the generation-base model as reference response text, so that the generation-base model can generate highly diverse response sentences. However, the prior works show that the generation-base dialogue system often ignores the reference response text, resulting in the response sentences that is unrelated to the reference response text. In this work, we propose the Dialogue-Filling method, which can utilize 100% of the reference response text by masking the response sentences with a text-filling technique. We built variants of Dialogue-Filling method with DialoGPT model. Experiments on the DailyDialog Dataset demonstrate that our Dialogue-Filling method outperforms the baseline method on the dialogue generation task.
著者
藤本 雅清 鷹尾 誠一 有木 康雄 松本 宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.68, pp.49-54, 2001-07-13
参考文献数
16

本研究では,社内で製作された商品の紹介映像を個々の商品区間へ分割(トピックセグメンテーション)し,商品名をインデックスとして付与するシステムの検討を行った.本研究におけるシステムでは,商品紹介映像の音声から音楽などの雑音を除去した後にキーワードスポッティングを行い,抽出された商品名を用いてトピックセグメンテーションを行っている.また,キーワードスポッティングにより商品名を抽出するためには,商品名辞書が必要となるが,本研究では,商品名辞書が事前に存在していない場合に,映像中のテロップ文字を利用して,オンラインで自動生成する手法についても検討を行った.実験の結果,商品名辞書が事前に存在している場合で約82%,商品名辞書を自動生成した場合で約60%の精度で区間分割を行うことができた.In this paper, we propose a method to segment goods catalog video into individual sections and index them. Our proposing method uses the keyword spotting which extract the keywords from noise reduced speech signal within the goods catalog video. In order to extract the keywords by using keyword spotting, the goods name dictionary is required. In this paper, we study a method to generate the goods name dictionary automatically, by using the video captions within the goods catalog video. As the experimental result, the proposed method could segment the individual goods sections with approximately 82% accuracy when the goods name dictionary is available, and with approximately 60% accuracy when goods name dictionary is generated automatically.
著者
熊野 雅仁 天野 美紀 有木 康雄 上原 邦昭
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.104, no.369, pp.1-6, 2004-10-14
被引用文献数
5

本論文では,編集を意識した映像撮影を支援,教示することを目的として,映像文法を背景とするリアルタイムカメラワーク判定に基づいた撮影ナビゲーションシステムを提案する.カメラワークの解析法についてはいくつかの研究が行われているが,本システムでは,カメラワーク解析のリアルタイム性が要求されるため,処理速度が速く,また,手ぶれやカメラワークの安定性を十分に検証できる方法として投影法を用いた手法を採用した.カメラワーク解析により出力された結果からショット検出を行い,ショットを14通りの状態に分類し,編集には使用できない使用不能区間の表示,また,映像文法に従って編集に最も適した映像区間の表示を行う.これにより,撮影者は効率的に取り直しの作業を行うことができ,また,撮影した映像で編集に適した部分を瞬時に把握することが可能となる.
著者
田中 克幸 滝口 哲也 有木 康雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.94, no.12, pp.2047-2057, 2011-12-01

本論文では,non-factoid型質問応答技術の一つであるWhy型質問応答を可能とするための技術として,Whyテキストセグメントを識別する識別器の構築方法を提案する.具体的には,テキストセグメント中の文法情報に着目し,機械学習の一つであるSupport Vector Machineにより,それらの特徴パターンを学習することによって,Whyテキストセグメント識別器を構築する.これにより,どのようなドメインのテキストセグメントに対しても,有効に機能するWhyテキストセグメント識別器が構築でき,WebのようなオープンドメインにおいてWhy型質問応答が可能となる.提案手法によるWhyテキストセグメント識別能力の評価のために,Yahoo!知恵袋の回答集合からなる学習データセットをもとに,Whyテキストセグメント識別器を構築して実験を行った結果,F値=0.661,正解率=63.25%の識別性能を有する識別器を構築することができた.これより,従来のWhy型質問応答の問題点であったルール作成に手間が掛かる,識別器がドメインに依存する,ラベル付けされた学習データの入手が困難である,といった問題が改善され,より識別能力の高いWhyテキストセグメント識別が可能となった.
著者
真坂 健太 相原 龍 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.17, pp.1-6, 2014-12-08

声質変換は,入力した音声を音韻情報などは保ったまま,話者性のような特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の代表的な手法である GMM を用いた統計的なアプローチ等は,あくまでクリーン音声を用いた評価を行っており,雑音環境下を考慮した定式化はされていない本研究では,雑音環境下での声質変換など,これまでになかったタスクに対応可能な非負値行列因子分解 (Non-negative Matrix Factorization:NMF) による声質変換を扱う.我々はこれまで,この NMF に基づいた,音声だけではなく唇画像情報を用いたマルチモーダルな声質変換手法を提案してきた.入力話者の特徴量として,音声と画像情報を用いることで変換精度,及びノイズロバスト性の向上を目指した.本論文では,さらに特徴量重みを導入し,新たにコスト関数を提案した.実験結果より,音声情報のみを用いた NMF による声質変換,及び GMM による声質変換よりも提案手法が精度の良い変換が行える事を示す.Voice conversion is a technique for converting specific information in speech while maintaining the other information, such as linguistic information. This technique has been applied to various tasks, for example, there are speaker conversion, emotion conversion and speaking assistance, etc. The GMM-based method is conventional VC method and widely used. In noisy environments, the GMM-based method cannot convert the speech well, because this method cannot model the noisy signal well. Therefore, we have been researched about a noise-robust VC method using Non Negative Matrix Factorization (NMF). In this paper, we propose a multimodal VC method that improves the noise robustness of our previous exemplar-based VC method. Furthermore, we introduce the combination weight between audio and visual features and formulate a new cost function in order to estimate the audio-visual exemplars. By using the joint audio-visual features as source features, the VC performance is improved compared to a previous audio-input exemplar-based VC method. The effectiveness of this method was confirmed by comparing it with that of the conventional audio input NMF-based method and the conventional GMM-based method.
著者
中鹿 亘 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.30, pp.1-6, 2014-12-08

質変換は,入力した音声を音韻情報などを保ったまま,話者性に関する特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の多くの声質変換手法は,同一発話内容の入出力音声対 (パラレルデータ) を学習時に必要とするが,予め発話内容を決めておく必要がある,音声間のアライメントを取る必要があるなど,学習データを慎重に用意しなければならないという問題がある.また,変換モデルの利用は学習された話者対のみに限定されてしまう.本研究では,パラレルデータを必要としない任意話者声質変換を実現するため,確率モデルの一つである Restricted Boltzmann machine(RBM) を拡張した話者適応型 RBM(Adaptive restricted Boltzmann machine; ARBM) を新たに提案する.適応型 RBM は可視素子層と隠れ素子層からなる二層の確率モデルであり,異なる層の素子間には話者によって変化する結合重みが存在する.本稿では,適応型 RBM を用いた任意話者声質変換に関する評価実験の結果について報告する.Voice conversion (VC) is a technique where only speaker-specific information in source speech is converted while keeping phonological information. The technique can be applied to various tasks such as speaker-identity conversion, emotion conversion and aid to speaking for people with articulation disorders. Most of the existing VC methods rely on parallel data—pairs of speech data from source and target speakers uttering the same articles. However, this approach involves several problems; firstly, the data used for the training is limited to the pre-defined articles. Secondly, the use of the trained model is limited only to the speaker pair used in the training. In this paper, we propose a novel probabilistic model called an adaptive restricted Boltzmann machine (ARBM) for VC between arbitrary speakers without use of parallel data. This model consists of a visible-unit and a hidden-unit layer with the speaker-dependent connection. In this paper, we report our experimental results of arbitrary-speaker VC using our model, an ARBM.
著者
有木 康雄 滝口 哲也
出版者
神戸大学
雑誌
萌芽研究
巻号頁・発行日
2006

本研課題では、スポーツ実況放送の音声認識、及び状況理解を目的としている。状況理解により、スポーツ実況放送のシーンを構造的な単位に分割し、検索のためのメタ情報として利用可能とする。本研究課題では、確率的な枠組みに基づく音声と状況の同時認識、スポーツの進行に伴う状況変化のモデル化、状況に基づく音声認識モテルに特色がある。状況変化モデルは、発話された音声を認識し、発話内容に基づいてイベント推定、及び状況の遷移を行うモデルとなる。ここでは特に発話内容からのイベント推定が重要となる。本研究では、多様な発話を高精度に分類可能なAdaBoostを推定のためのモデルとして用いた。ただし、AdaBoostの出力は確率ではないことから、スコアをsigmoid関数により擬似確率化して用いた。また、AdaBoostを行う際の特徴量として、単語順序を考慮可能な手法であるDTA-Kernel PCAについても研究を行った。状況に基づく音声認識では、状況に応じて変化する言語的・音響的変化に対し、音声認識のモデルを適応する手法について研究を行った。本研究では、それぞれ状況に対応した複数の言語・音響モデルを構築しておき、認識時にモデルを切り替える手法を用いた。状況依存モデルの尤度、及び発話内容からの状況推定の尤度を統合し、最大化することにより、音声認識と状況推定を同時に行った。スポーツ実況放送では、興奮した音声を含む場合があり、興奮音声の認識は通堂の音響モデルでは困難である。研究課題では、さらなる認識性能向上のため、新しい音声認識特徴量、発話スタイルの変動に頑健な音響モデルについても研究を行った。
著者
有木 康雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.80, no.9, pp.2421-2427, 1997-09-25
被引用文献数
32

本論文では, ニュース映像から個々の記事を自動的に切り出す方法を提案している. ニュース映像の各フレームを, 離散余弦変換(DCT)で圧縮し, このとき得られるDCT特徴でシーンカットを検出する. カット検出の従来法では, 隣接するフレーム間の差分をもとにしているため, 画像の一部または全体の明るさが変化する場合に, 誤検出が生じていた. 本研究では, 同一シーン中の連続するフレームは類似しているという性質に基づいて, ニュース映像中のフレームをクラスタリングすることによって, この問題を解決している. ニュース映像は「スタジオから現場に移りスタジオに戻る」というシンタックス上の構造をもっている. この構造は, 検出したカット点フレーム集合においては, ループとして観測されるため, ループ検出によってスタジオを推定し, 記事を切り出している. NHKのニュース30日分に対して実験を行い, カット検出率87.9%, 記事切出し率99.2%を得た. また, 民放3社のニュース10日分に対して, 記事切出し実験を行いその有効性を示した.
著者
熊野 雅仁 有木 康雄 春藤 憲司 塚田 清志
出版者
一般社団法人映像情報メディア学会
雑誌
映像情報メディア学会誌 : 映像情報メディア (ISSN:13426907)
巻号頁・発行日
vol.57, no.7, pp.829-839, 2003-07-01
参考文献数
17
被引用文献数
10 3

Video editing is used to produce a final version with a specific duration by finding and selecting appropriate shots from the raw video material and connecting them. Video editing process is generally conducted according to the special rules called "video grammar" in order to produce excellent and intelligible videos for broadcasting. However, this editing consumes a lot of human editor's working time. To solve this problem, an efficient and new video editing technique or system is required. The goal of this study is to develop an intelligent support system for video editing based on video grammar. This paper proposes a method of using camerawork density, camerawork instability, and cut point parameters to automatically segment the raw video materials into useful sections and useless sections. The method is based on video grammar as a part of the video editing support system.
著者
熊野 雅仁 有木 康雄 上原 邦昭
出版者
一般社団法人映像情報メディア学会
雑誌
映像情報メディア学会誌 : 映像情報メディア (ISSN:13426907)
巻号頁・発行日
vol.61, no.8, pp.1159-1167, 2007-08-01
被引用文献数
3 1

We aim to develop a video-shooting learning system using video grammar and a real-time, on- and offline navigation system. As an initial step, we have developed an online navigation system that uses video grammar for evaluating users' high-speed camerawork to assist them with effectively shooting shots that can be easily edited. Previous camerawork analysis results showed that by classifying each frame into one of seven camerawork types, high-speed processing accuracy is improved. The system issues three types of alarms depending on the camerawork and the video grammar while a user is shooting that guide the user toward a specified shot. Users thus can naturally acquire a shooting style by trying to decrease the number of alarms and can obtain the specified shot without having to consider the video grammar.
著者
重森 猛 金子 剛志 緒方 淳 藤本 雅清 有木 康雄 塚田 清志 濱口 伸 清瀬 基
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.618, pp.33-40, 2003-01-23
参考文献数
14
被引用文献数
6

本研究では、野球のラジオ実況中継音声に対して大語彙連続音声認識を行い、キーワードを抽出してハイライトシーンを検出することを目的としている。音声認織部をより頑健にするために、音響モデルでは、MLLR+MAP適応による教師あり、教師なし適応を行っている。この音響モデルの2段階適応を用いることにより、アナウンサーの話者性に適応することができ、ベースラインに比べ単語正解精度で約28%の改善が得られた。言語モデルでは、言語モデルの融合、選手名のクラス化、発音辞書の修正を行い、ベースラインに比べ単語正解精度で約13%の改善が得られた。それぞれの適応を統合することにより、単語正解精度で約38%の改善が得られた。
著者
川井 拓摩 寺西 俊裕 有木 康雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会ソサイエティ大会講演論文集
巻号頁・発行日
vol.1996, 1996-09-18

ニュース映像をマルチメディア情報資源としてディジタル化し、索引付けして分類する研究を行なっている。この研究では、テロップ中の文字を認識して形態素解析し、二文字以上の名詞をキーワードとして抽出し、このキーワードを索引としてニュース記事に付与するとともに、政治・経済などの10分野に分類している。これまでの報告では、テロップの文字切り出し率は92.2%であったが、文字認識率が53.1%と低く、これが原因となって、索引付与率と記事分類率が78.1%、62.5%と低い結果になっていた。文字認識率が低い理由としては、学習に使っている文字フォントと、テロップとして使われている文字フォントの違い、テロップ中の文字に重畳する雑音があげられる。今回、平滑化フィルタを使ってこの雑音を除去する処理を行ない、文字認識率が向上するとともに、索引付与率、記事分類率が向上したので報告する。
著者
有木 康雄 杉山 善明 石川 則之 寺西 俊裕 櫻井 光康
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解
巻号頁・発行日
vol.96, no.385, pp.31-38, 1996-11-22
被引用文献数
16

ニュース映像を対象とし, 記事単位に分割した後, 文字・音声・画像情報を基に索引付けして記事を分類する研究を行っている. 1つの記事は, スタジオシーンで始まり, スタジオシーンに終ることを利用し, カット検出されたフレーム集合において, ループを検出して記事を切り出している. 5分間のNHKニュース30日分をデータベースとし, 99.2%の記事切り出し率を得た. また, ニュース映像中のテロップを認識し, 索引付けして記事を政治・経済など10の分野に大分類した. 同じデータベースに対して, 78.1%の索引付与率と62.5%の記事分類率を得た. ニュース音声に対しても, キーワードスポッティングにより, キーワードを抽出して索引付けし, 記事を10の分野に大分類した. キーワード抽出率53.5%に対して, 50.7%の記事分類率を得た. 最後に, 画像中から顔領域を部分空間法により抽出し, 認識・追跡する実験を行い, 高い認識率を得た.
著者
田中 克幸 滝口 哲也 有木康雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.6, pp.59-66, 2007-01-25

情報網・Web2.0の発展や放送のデジタル化により、情報整理が困難なメディア、映像、画像、音などの普及が情報の無秩序な肥大化を促進し情報氾濫を招いている。情報量の爆発とプラットフォームの多様化により、ユーザーが欲しい情報が入手できない状況にあり、効率的にユーザーが欲しい情報だけを入手できる環境が必要とされてきている。そこで、本稿では、NetNewsとTV映像のクロスプラットフォームの動画インデキシングと音声インタフェイスによる、検索システムを構築し、ユーザーが快適に動画観覧でき、疑問解決をできるNetTvシステムを構築し、情報の統合によるユーザーの検索軽減を目指した。The advancement of information technology, which includes such developments as Web2.0, on digital TV and Broadband, enables anyone and everyone to access and participate to access any form of media, like documents, movies, images etc via the internet very easily. However, due to information growth and the decentralization of platforms, users are faced with increasing difficulty in finding the information that they really are interested in. Our research enables the searching of news on the internet (NetNews) and TV by speech interface, thereby offering users a better search of cross-platform videos.