著者
高田 司郎 新出 尚之
出版者
一般社団法人情報処理学会
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.19, pp.57-60, 2009-02-26

従来のBDI logicは,Bratmanの「意図の理論」を基にした既存BDIモデルの範囲で,信念・願望・意図などの心的状態とそれら心的状態を保持・更新して目的を達成する振る舞いに関して,形式的な議論や証明を行うことができた.しかし動的な環境下の合理的エージェントの実現には,強化学習との統合などが要請される.そこで,確率的遷移と不動点オペレータの概念を導入してBDI logicを拡張したtomatoを用いて,強化学習で用いられる方策や有限MDPをtomatoの論理式として記述し,BDIと同じ論理体系で扱うことを可能にすることで,BDIと強化学習の統合方式を提案する.具体的には,強化学習の事例として「カヌーレーシング」をtomatoを用いて形式的に記述することで,厳密な議論や証明ができることを例示し,上記のように拡張された合理的エージェントの実現に,tomatoが有効であることを示す.Using traditional BDI logics, within the existing BDI model which based on the theory of intention by Bratman, we can formally argue or prove various properties of agents' mental states such as beliefs, desires and intentions, or behaviors of agents to achieve their aims while holding and updating their mental states. However, to construct rational agents under dynamic environments, additional capabilities such as integration with reinforcement learning are required. In this paper, we describe the notions used in reinforcement learning, such as policies and finite MDPs, as a formula of tomato, an extended BDI logic with probabilistic transitions and fixpoint operators. In this way, we propose a way to integrate BDI and reinforcement learning by enabling us to handle those two within a uniform logic. Specifically, using tomato, we provide a formal description of canoe racing as a case of reinforcement learning, and give some examples of strict arguments and proofs. It shows the effectiveness of tomato on realizing rational agents extended in the way described above.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

こんな論文どうですか? 拡張BDI logicを用いたBDIと強化学習の統合について(高田 司郎ほか),2009 http://t.co/LuFaAzB0wX

収集済み URL リスト