言及状況

外部データベース (DOI)

Twitter (7 users, 9 posts, 19 favorites)

@masakat0 こういった内容でしょうか https://t.co/mXAftjp5J3
@ML_deep @kenmcalinn ベイズが使われているのはエピソードが1回のバンディットと逆強化学習あたりで、報酬の分布予測には分位回帰、分散推定、分布ベルマン方程式あたりが使われていると思います。 強化学習はベルマン方程式が肝でエピソードを沢山行って不確実性を回避してると思います。 https://t.co/mXAftjp5J3
@PSXase5 @kyow_QQ 金融への応用などでリスク考慮型強化学習が考えられてますね。 https://t.co/cud9Zq9V5m

収集済み URL リスト