著者
並木 尚也 大用 庫智 高橋 達二
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

不確実な環境下における意思決定には,新たな知識の探索と既知の知識の利用という相反する2つの行動が要求され,ジレンマが起こる.先行研究では相対評価を行う緩対称性推論モデルがジレンマを緩和して優れた成績を有しており,人間の因果的直感との相関も高いことが明らかになっている.本研究では,人間の意思決定に対する詳細な形式化を行うため,人間の意思決定課題における実際の系列データと既存モデルとの比較を行った.
著者
並木 尚也 田中 洸樹 大用 庫智 高橋 達二
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

新パラダイム推論心理学によれば、人間の論理が真偽のみを許す二値論理ではモデリングできず不確実性を許容する体系が必要である。特に「PならばQ」といった条件文は、「PでないかQ」という実質含意ではなく、条件付き確率に対応する(Pが偽なら真でも偽でもない)と考えられている。本研究では、三値論理の枠組みでさまざまな条件文の種類に対して3x3の真理値表を構築する実験を行い、新パラダイムの適用範囲を拡張する。
著者
大村 英史 柴山 拓郎 高橋 達二 澁谷 智志 岡ノ谷 一夫 古川 聖
出版者
日本知能情報ファジィ学会
雑誌
知能と情報 (ISSN:13477986)
巻号頁・発行日
vol.24, no.5, pp.954-966, 2012-10-15 (Released:2012-11-05)
参考文献数
20
被引用文献数
2 2

本稿では,人間の認知バイアスのモデルを用いた音楽生成システムを提案する.音楽は期待の満足や裏切りによって情動豊かな作品として構成されている.このような音楽における期待の形成とその期待に対する満足や裏切りのダイナミクスを実現するために,緩い対称性(LS)モデルを使用した.このモデルは人間の思考や推論に特徴的な非論理的な対称性バイアスと相互排他性バイアスに基づいた確率モデルである.本システムは,(1)音から音への遷移を音楽におけるメロディの最も単純なイベントとみなし,既存の楽曲から音の遷移の特徴量を抽出し,(2)LS モデルにより「人間的な」改変,汎化を行い,(3)新たなメロディを生成する.メロディ生成に用いられる汎化後の確率分布の平均情報量を調べた結果,LS モデルがほどよい複雑性を作り出していることが確認された.さらに,生成されたメロディの評価のために心理実験を行い,LS モデルが期待に関する満足(音楽的まとまり)と裏切り(意外性)をバランスよく含んだメロディを生成していることを確認した.この結果は,音楽生成における期待感生成に関する認知バイアスの適用の有効性を示唆する.

2 0 0 0 OA 認知的満足化

著者
高橋 達二 甲野 佑 浦上 大輔
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.31, no.6, pp.AI30-M_1-11, 2016-11-01 (Released:2016-12-26)
参考文献数
26
被引用文献数
3

As the scope of reinforcement learning broadens, the number of possible states and of executable actions, and hence the product of the two sets explode. Often, there are more feasible options than allowed trials, because of physical and computational constraints imposed on the agents. In such an occasion, optimization procedures that require first trying all the options once do not work. The situation is what the theory of bounded rationality was proposed to deal with. We formalize the central heuristics of bounded rationality theory named satisficing. Instead of the traditional formulation of satisficing at the policy level in terms of reinforcement learning, we introduce a value function that implements the asymmetric risk attitudes characteristic of human cognition. Operated under the simple greedy policy, the RS (reference satisficing) value function enables an efficient satisficing in K-armed bandit problems, and when the reference level for satisficing is set at an appropriate value, it leads to effective optimization. RS is also tested in a robotic motion learning task in which a robot learns to perform giant-swings (acrobot). While the standard algorithms fail because of the coarse-grained state space, RS shows a stable performance and autonomous exploration that goes without randomized exploration and its gradual annealing necessary for the standard methods.
著者
大用 庫智 市野 学 高橋 達二
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.30, no.2, pp.403-416, 2015-01-01 (Released:2015-01-22)
参考文献数
65
被引用文献数
4 5 4

Cognitive psychology and behavioral economics have shown that humans have cognitive biases that deviate from normative systems such as classical logic and probability theory. Considering that humans have the ability to understand the world from sparse and/or imprecise data, it is natural to assume that the biases in human have some ecological merits in adaptation. We focus on two cognitive biases, symmetry and mutual exclusivity, that are considered peculiar to human. In this study, with the framework of empirical Bayes, we clarify the implication of a model of human causal cognition, the loosely symmetric (LS) model [Shinohara 07]) that implements the cognitive biases. We show that LS has great descriptive validity in inductive inference of causal relationship (causal induction) with a meta-analysis and an experiment in causal induction. The result of another experiment strongly suggests that humans use the inductively inferred causal relationship to decision-making. Then we show that LS effectively works in sequential decision-making under uncertainty (N-armed bandit problems). Operating LS as a simple value function under the greedy method in the framework of reinforcement learning, we analyze its behavior in terms of cognitive biases or heuristics under uncertainty. The three cognitive properties resulting from the loose symmetry, comparative valuation, satisficing, and prospect theory-like risk attitudes, are shown to be the key of the performance of LS. We parameterize the reference for satisficing and show that the quite intuitive parameter enables optimization.
著者
小澤 優太 甲野 佑 高橋 達二
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

人工蜂コロニー(ABC)アルゴリズムは採餌探索行動における分業を表現した関数最適化手法の1つで,特に高次元空間に対して優れた手法である.しかし,その探索手法はランダム性に大きく依存している.現在,生物的な因果関係の推論傾向が情報の探索と活用のバランシングに有効である事が知られており,本研究ではそのような推論傾向を組み込むことで,知識の探索と利用を自律的に調整するABCアルゴリズムを考案した.
著者
坂本 佑樹 高橋 達二
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第29回 (2015) (ISSN:27587347)
巻号頁・発行日
pp.1D21in, 2015 (Released:2018-07-30)

近年の動画解析技術の進歩から現実の動物の群れの中にスケールフリー相関、相転移等の概念が新たに発見された。しかしながら、群れらしさを示すと思われるスケールフリー相関を自在に調整する手法は未だ明らかにされていない。本研究では二種類の近傍を切り替える群れのMTIモデルをベースに、スケールフリー相関の傾きを調整する手法を新たに提案する。また、その傾き係数と「群れらしさ」知覚との関係を実験的に検討する。
著者
南 朱音 小林 優希奈 甲野 佑 高橋 達二
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回 (2020) (ISSN:27587347)
巻号頁・発行日
pp.2I5GS203, 2020 (Released:2020-06-19)

複雑な入力情報から取るべき行動を推論する深層強化学習は,強力な関数近似器での学習(Deep Learning)が発展の核となった.強化学習には教師あり学習とは異なり,自分でデータ収集しなければならない探索の概念を持ち,単純な強化学習の一種であるバンディット問題では最適な探索アルゴリズムが明らかになっている.しかしながら関数近似を用いる文脈付きバンディット問題では最適な探索が保証されなくなる.そこで本研究では従来とは異なる探索アルゴリズムの検証を行った.人間は報酬の目標水準を持ち,それを満たす行動を速やかに探索する性質(満足化)が知られている.この満足化を応用した文脈付きバンディットアルゴリズムに応用した linear Risk-sensitive Satisficing (LinRS) は人工的な分布を用いた課題では既存アルゴリズムと比較しても良い成績が得られている.本研究では実世界から実測データでの文脈付きバンディット問題での検証を行った.人工データより実世界データの成績は悪化すると言われており,その対処法として LinRS における適切な探索のための目標水準の調整について議論する.
著者
吉井 佑輝 甲野 佑 高橋 達二
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2020, pp.2I5GS202, 2020

<p>人間にはある目的基準を超える収益が得られる手順を発見するとそれに満足し,探索を打ち切るといった満足化と呼ばれる意思決定傾向が存在する.この傾向を強化学習に応用したのが Risk-sensitive Satisficing (RS) である.深層強化学習は人間が行うようなレトロゲームのプレイや運動制御などへ強化学習の適用範囲を広げた.しかし,情報を自ら探索しなければならない点は変わらない一方で,ニューラルネットによる関数近似を用いることで効率的な探索に関する議論を困難にしている.そこで RS を強化学習に反映することで素早く合目的的な探索を実現することが可能になると考えられ,実際に RS はバンディット問題のようなトイタスクの強化学習課題において優れた成績を有している.本研究では RS を関数近似に拡張した Linear RS(LinRS) における目的基準の設定について検証を行うために,文脈付きバンディット問題での実験を行う.それにより,既存アルゴリズムに比べて確率的な環境で優れた成績を有することが分かった.また,基準値と近似誤差の関係から,目的水準に補正が必要であることが分かった.</p>
著者
並木尚也 高橋達二
雑誌
第76回全国大会講演論文集
巻号頁・発行日
vol.2014, no.1, pp.517-518, 2014-03-11

不確実な環境下での意思決定には,より良い情報を探すための探索と,既知の最良の情報を活用する知識利用との相反する2つの行動が要求される.これを探索と知識利用のトレードオフという.先行研究では、LS(Loosely Symmetric)モデルという相対評価を行うモデルがそのトレードオフに非常に有効であることがシミュレーションで明らかにされており,人間との相関が高いことも分かっている.しかしながら,実際の人間がどのような行動をするのか,どのような傾向があるのか,また相対評価をどのように利用しているのか,などの詳細はよく分かっていない.本研究では実際に人間に実験をし,行動データから分析を行った.
著者
其田 憲明 神谷 匠 高橋 達二
出版者
人工知能学会
雑誌
2019年度 人工知能学会全国大会(第33回)
巻号頁・発行日
2019-04-08

人間は個人での試行錯誤的な学習だけではなく,他者の成功情報を受け取ることで学習をより促進させている.ここには他者の行動の模倣や結果の再現といった社会的な戦略が存在する.強化学習における他エージェントとの情報共有法としてはしばしば行動価値の共有が行われているが,状態や状態行動対ごとの情報共有が必要であり,現実には難しいことが多々ある.少なくとも人間や動物の社会的学習のモデルとしては現実性に欠ける.我々は人間の満足化原理を強化学習に反映した,Risk-sensitive Satisficingと大局基準変換法を用いた大局的な基準値の共有によって,より少量の情報共有による効率的な社会的学習が可能であることを示す.
著者
大村 英史 柴山 拓郎 高橋 達二 澁谷 智志 二藤 宏美 古川 聖
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

雰囲気は、環境から知覚される情報の総体である。知覚される情報を定量的にコントロールすることは、任意の雰囲気を作り出すために有用であると考えられる。私たちは、音の知覚である音楽に着目し、発音時間および周波数の構造をエントロピーに基づいて構造化し、音楽を生成するシステムを開発した。本システムはwebブラウザ上で動作するため、ユーザは任意の環境で音知覚を行うことができる。
著者
西村友伸 大用庫智 高橋達二
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.101-102, 2013-03-06

本研究では人間認知の適応的特性の大規模コンピューティングへの適用例として、ヒトの認知バイアス(対称性・相互排他性)を持つ行動価値関数、 Kohno & Takahashi (2012) が提案したLSVR (loosely symmetric model with variable reference) モデルを用い、モンテカルロ木探索の評価値として実装し、囲碁AIでのゲーム木探索を通して効果を確認した。同様の行動価値関数としては期待損失の限界に保証を持つUCB1が有名だが、LSVRがUCB1と比較して、サンプリング回数が少ない時、また探索の幅が非常に広い時に、より良い性能をもたらすことを示す。更に、LSVRとUCB1の両者を使い分けるハイブリッドモデルについても検証し、その効果も確認した。
著者
坂本 佑樹 高橋 達二
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

ReynoldsによるBoidsモデルの提案以来、様々な角度から群れモデルの研究が行われてきた。また、近年の動画解析技術の向上により、現実の動物の群れの中にスケールフリー相関、相転移等の概念が新たに発見された。しかし、これらを踏まえた上での各モデル間の比較検証は十分ではない。本研究では既存のモデルについて比較分析を行った。
著者
西村 友伸 大用 庫智 高橋 達二
雑誌
ゲームプログラミングワークショップ2012論文集
巻号頁・発行日
vol.2012, no.6, pp.191-196, 2012-11-09

本研究では甲野により提案された可変参照型緩対称推論をモンテカルロ木探索に応用させ,その効果を測る為にリバーシのAI に実装し,モンテカルロ木探索で広く利用されているUCT を実装したAI と対戦させた.その結果ある程度のプレイアウトの上ではUCT に勝ち越し,可変参照が木探索においても有効に作用することが分かった.