著者
並木尚也 高橋達二
雑誌
第76回全国大会講演論文集
巻号頁・発行日
vol.2014, no.1, pp.517-518, 2014-03-11

不確実な環境下での意思決定には,より良い情報を探すための探索と,既知の最良の情報を活用する知識利用との相反する2つの行動が要求される.これを探索と知識利用のトレードオフという.先行研究では、LS(Loosely Symmetric)モデルという相対評価を行うモデルがそのトレードオフに非常に有効であることがシミュレーションで明らかにされており,人間との相関が高いことも分かっている.しかしながら,実際の人間がどのような行動をするのか,どのような傾向があるのか,また相対評価をどのように利用しているのか,などの詳細はよく分かっていない.本研究では実際に人間に実験をし,行動データから分析を行った.
著者
西村友伸 大用庫智 高橋達二
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.101-102, 2013-03-06

本研究では人間認知の適応的特性の大規模コンピューティングへの適用例として、ヒトの認知バイアス(対称性・相互排他性)を持つ行動価値関数、 Kohno & Takahashi (2012) が提案したLSVR (loosely symmetric model with variable reference) モデルを用い、モンテカルロ木探索の評価値として実装し、囲碁AIでのゲーム木探索を通して効果を確認した。同様の行動価値関数としては期待損失の限界に保証を持つUCB1が有名だが、LSVRがUCB1と比較して、サンプリング回数が少ない時、また探索の幅が非常に広い時に、より良い性能をもたらすことを示す。更に、LSVRとUCB1の両者を使い分けるハイブリッドモデルについても検証し、その効果も確認した。