著者
菊地 真人 川上 賢十 吉田 光男 梅村 恭司
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J102-D, no.4, pp.289-301, 2019-04-01

データを確率的に取り扱う問題において,統計的尺度の推定は手法の構成やデータ分析の基盤的役割を担う.本論文では統計的尺度の一つであるゆう度比を,離散的な標本空間から得た観測頻度をもとに推定する問題を扱う.素朴な推定方法は,ゆう度比の定義に従い,ゆう度比を構成する二つの確率分布を最ゆう推定して,その比を取ることである.しかし,低頻度からゆう度比を求めるとき,この方法は推定量を不当に高く見積もってしまう場合がある.そこで,ゆう度比の直接推定法uLSIFを応用し,ゆう度比を低めに(保守的に)推定する方法を提案する.提案手法は,最ゆう推定によって求めたゆう度比を正則化パラメータによって調整する枠組みである.実験では提案手法の振る舞いを明らかにし,その有効性を示した.更に,自然言語処理におけるブートストラップ法を利用した実験も行い,提案手法の実用性も示した.
著者
菊地 真人 山本 英子 吉田 光男 岡部 正幸 梅村 恭司
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌 D = The IEICE Transactions on Electronics (Japanese Edition) (ISSN:18810225)
巻号頁・発行日
vol.J100-D, no.4, pp.544-555, 2017-04-01

本論文では,観測頻度から条件付き確率を推定するという問題に取り組む.条件付き確率の推定は,データマイニングや実際の応用における基本的な操作であり,その推定方法によって手法の正確さが左右されることがある.一般に,確率推定では最ゆう推定値が用いられるが,低頻度に弱いという問題がある.この問題に対処するため,ベイズの枠組みがよく用いられる.ベイズの枠組みでは,データについての事前分布を推定し,事後分布の期待値を用いる.しかし,データをもとに事前分布を推定することは容易ではない.そこで,本論文では,事前分布として何らかの分布を仮定して事後分布の信頼区間を求め,その下限値を用いる手法を提案する.期待値は偏りのない推定値となる一方で,信頼区間の下限値は条件付き確率を保守的に見積もった推定値となる.実験によって,提案手法が低頻度に頑強であることを示す.更に,提案手法は事前分布として一様分布を用いた場合,ベイズの枠組みを用いた手法とほぼ同じ性能を獲得しうることを示す.