- 著者
-
金 景柱
岩橋 直人
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
- 巻号頁・発行日
- vol.100, no.336, pp.9-16, 2000-10-06
- 被引用文献数
-
14
本報告では, 音声と画像情報を統合的に処理することにより, 単語と単語を構成する音声セグメントを獲得するための原理およびアルゴリズムについて述べる.音声セグメントと単語の階層構造を, 音声に対応づけれた画像情報を用いていかに獲得するかが問題であり, これを解決するための相互情報量規準に基づいた情報理論的学習原理が示される.これにより, 音声セグメント, それによって構成される単語, および各単語に対応付けられる画像概念が同時に求められる.アルゴリズムでは, 音声セグメントと単語と動的画像概念が隠れマルコフモデル, 静的画像概念が多次元正規分布で表現され, これらの確率モデルの数とパラメータ値が自動決定される.単語を孤立発声した音声とぬいぐるみの画像を用いた実験を行ない, 言語音声単位と画像概念が適切に獲得できることを示す.