1 0 0 0 OA 最高の文章

著者
鶴岡 慶雅
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.1, 2020-03-15 (Released:2020-06-15)
著者
窪澤 駿平 大西 貴士 鶴岡 慶雅
出版者
公益社団法人 化学工学会
雑誌
化学工学論文集 (ISSN:0386216X)
巻号頁・発行日
vol.48, no.4, pp.141-151, 2022-07-20 (Released:2022-07-20)
参考文献数
16
被引用文献数
1

化学プラントの運転では,製品の品質を一定に保ちつつ生産コストを最小化することが求められる.このためには,製品の品質に関わるプロセス変数の計測と,計測した値に基づく対応操作すなわち制御が必要である.ところが,組成や粘度など,物質を装置から採取した後にオフライン分析しなければ取得できない変数もある.そこで,計測が容易な指標から,リアルタイムに取得できない変数値を推定する機能としてソフトセンサがある.ただし,ソフトセンサでも,データのみから統計的に構築する手法の場合は,過去の類似データがない状況での推定精度(外挿性)に課題がある.そこで本稿では,化学工学知識に基づく物理モデルを利用したダイナミックシミュレータと,AI技術のひとつである強化学習によって,プラントの詳細な内部状態を推定し,各状態変数値をソフトセンサとして利用する方法を提案する.また,こうしたソフトセンサを利用したプラント運転の展望と,提案するシステムに必要な予測モデルの入手についての方法論を述べる.
著者
杉本 直樹 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2018論文集
巻号頁・発行日
vol.2018, pp.114-119, 2018-11-09

実用上の人間の対戦相手としてのゲームAI には、強すぎず弱すぎない人間のプレイヤーと互角の実力が求められる。本研究では、プレイヤーの戦略を動的に推定しそれに応じて対戦AI を変化させ、2人対戦ゲームにおいてゲーム固有の知識を利用することなくAI プレイヤーの実力を人間のプレイヤーと互角となるよう調整し、なおかつそのAI プレイヤーが不自然な振る舞いを見せないようにする事を目的とする。本稿では、研究のため作成したパズルシミュレーションゲームにおいて提案手法によるAI がランダムAI よりも長く試合を続けられる事を示した。
著者
森 信介 鶴岡 慶雅
出版者
京都大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2014-04-01

与えられた盤面およびそこから先読みを行った結果得られる盤面に対して解説を生成方法を提案し自動解説を実現した。この過程で得られる用語と局面の自動対応(シンボルグラウンディング)モジュールを用いて言語のキーワードによる局面検索が実現できることを示し、情報検索のトップ会議(ACM SIGIR 2017)に採択された。また、本研究テーマを通して作成した将棋の固有表現コーパスを LREC 2016 にて発表し、これを用いて、局面を参照する固有表現認識器を提案し、言語処理のトップ会議である ACL 2016 にて発表を行った。
著者
亀甲 博貴 松吉 俊 John Richardson 牛久 敦 笹田 鉄郎 村脇 有吾 鶴岡 慶雅 森 信介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.3, pp.847-873, 2021 (Released:2021-09-15)
参考文献数
40

近年,シンボルグラウンディングや言語生成,自然言語による非言語データの検索など,実世界に紐づいた自然言語処理への注目が高まっている.我々は,将棋のゲーム局面に付随する解説文がこれらの課題の興味深いテストベッドになると考えている.解説者は現在の局面だけでなく過去や未来の指し手に言及しており,これらはゲーム木にグラウンディングされることから,ゲーム木探索アルゴリズムを活用した実世界対応の研究が期待できる.本論文では,我々が構築した,人手による単語分割・固有表現・モダリティ表現・事象の事実性のアノテーションを行った将棋解説文コーパスを説明する.
著者
中本 光彦 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2021論文集
巻号頁・発行日
vol.2021, pp.160-165, 2021-11-06

部分観測環境における深層強化学習の適用は困難である.また,複雑なタスクにおいては適切な報酬関数を設計することも難しいとされている.本研究では,これらの課題を解決するために,部分観測環境における教師なし強化学習のアルゴリズムを提案する.部分観測性に対処するためにエージェントに外部の記憶機構を与え,外部報酬を用いる代わりに相互情報量に基づいた内発的報酬を提案する.提案する内発的報酬は,エージェントに観測情報が非常に限られている状態空間を優先的に探索しながら,有効な記憶を学習させることを可能にする.実験では,HalfCheetah エージェントに限られた観測だけで,外部報酬を一切使用せずに,前後に走ることを習得させることができた.
著者
本上 雅央 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2014論文集
巻号頁・発行日
vol.2014, pp.17-24, 2014-10-31

ゲームアルゴリズムにおいてプレイアウトを用いる探索手法としてはモンテカルロ木探索、中でもUCTが主流であるが、最近SHOTという木探索手法が提案され一部のゲームでUCTとの比較がなされた。本研究ではそれに加え囲碁、五目並べを用いた対戦実験を行った。その結果SHOTはプレイアウト数に対して着手可能点が多い場面ではUCTより優れた探索をする一方、プレイアウト数を増やした時はUCTに及ばないことが分かった。また、詰碁による探索の性能評価も行い、SHOTがUCTに比べ、正解手が限定され、深い読みが必要となる場面での探索が苦手であることも分かった。
著者
水上 直紀 中張 遼太郎 浦 晃 三輪 誠 鶴岡 慶雅 近山 隆
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.55, no.11, pp.2410-2420, 2014-11-15

本論文では,牌譜を用いた教師付き学習による麻雀プログラムの作成法について述べる.まず,上級者の牌譜を用いたパーセプトロン学習によって1人麻雀プレイヤを作成し,それを拡張することによって4人麻雀への適用を行う.拡張は,1人麻雀プレイヤに「降り」と「鳴き」の機能を教師付き学習によって導入することで行った.オンライン麻雀サイト「天鳳」で作成されたプログラムの実力を評価した結果,レーティングとして,平均的な人間プレイヤーの実力を大きく上回る1,651点が得られた.This paper describes a supervised machine learning approach for building a mahjong program. We start with building a one-player mahjong program by Perceptron learning with game records of expert human players,and adapt it to four-player mahjong. The adaptation is achieved by incorporating the "folding" and "calling" functionalities that are separately learned from game records. We have evaluated the playing strength of the resulting program on a large online mahjong site "Tenhou". The program has achieved a rating of 1,651, which is considerably higher than that of the average human player.
著者
橋本 大世 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2020論文集
巻号頁・発行日
vol.2020, pp.62-69, 2020-11-06

深層強化学習の多くの設定ではエージェントが行動を取る際, 一度選んだ行動を何度か繰り返し, 次の行動決定時まで状態は観測しないことが一般的である. これはaction repeat またはframe skip と呼ばれる. 行動を繰り返すこの技法にはいくつかの利点があるが, 行動を繰り返す間のデータ(中間フレーム)は実質的に捨てられてしまう. 学習データ量はaction repeat の長さに反比例するため, これは学習のサンプル効率に悪影響となりうる. 本研究では, 擬似的な行動という概念を導入することでこの問題を軽減する, シンプルでありながら有効な手法を提案する. 提案手法の要点は, 擬似的な行動を考えることで, actionrepeat 間の遷移データを学習に利用できるようにすることである. 連続制御タスクにおける擬似的な行動は, 行動を決定する時刻をまたぐ行動系列の平均として得ることができる. 一方, 離散制御タスクにおける擬似的な行動は, 行動の埋め込み表現から計算することができる. この手法は, Q 関数の学習を伴う任意のモデルフリー強化学習手法と組み合わせることができ, 汎用的である. 実験では, OpenAI Gym の連続制御タスク, 離散制御タスクの両方で提案手法の有効性を検証した.
著者
水上 直紀 鶴岡 慶雅
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.60, no.7, pp.1325-1336, 2019-07-15

自己対戦を利用することで囲碁や将棋といった完全情報ゲームにおいて人間プレイヤを超えるコンピュータプレイヤが示されている.一方で不完全情報ゲームの分野である麻雀ではこのような研究は行われていない.そこで本論文では自動対戦棋譜の教師あり学習による麻雀プログラムを構築する方法について述べる.まず,人間の牌譜から教師あり学習によりコンピュータプレイヤを構築し,このプレイヤ同士を対局させることにより牌譜を生成する.次に,この牌譜を用いて手牌から和了の翻数を予測するモデルを機械学習により構築する.最終的に,この翻数予測モデルの出力と期待最終順位を用いて点数状況を考慮する麻雀プログラムを構築した.評価実験により,得られた翻数予測モデルは4翻以上の高い翻数の成功率を約1ポイント向上させることを確認した.
著者
水谷 陽太 鶴岡 慶雅
雑誌
ゲームプログラミングワークショップ2018論文集
巻号頁・発行日
vol.2018, pp.72-79, 2018-11-09

近年,深層強化学習の分野において,モデルベース強化学習に関する研究が注目を集めている.環境モデルを学習することで先読みを行うことが可能となり,長期的な計画に基づく方策決定が可能となる.ビデオゲームなどの複雑な環境において,画像を観測として用いる場合,観測を直接予測するような環境モデルを学習するのには莫大な計算コストがかかる.そのため,画像を低次元のベクトル表現に変換し,その表現における次状態の予測をする学習を行う手法がいくつか提案されている.しかし既存の手法における中間表現は,強化学習の目的においては不要なデータを含んでいたり,事前学習を必要とするなど,一長一短であった.本論文では,タスク達成に有用な中間表現を学習すると同時に,その中間表現を用いて次状態予測の学習を行う新しいモデルベース強化学習のアーキテクチャを提案する.提案するアーキテクチャは,表現の獲得と次状態予測,方策決定の全てをend-to-end で効率的に学習ができ,比較的小さな計算コストで長期的な計画に基づく方策決定を行うことが可能である.実験により,ビデオゲームの深層強化学習において提案手法を用いることで効果的な学習を行えることを確認した.
著者
関 栄二 三輪 誠 鶴岡 慶雅 近山 隆
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.53, no.11, pp.2533-2543, 2012-11-15

モンテカルロ木探索(MCTS)の登場により,コンピュータ囲碁プレイヤの棋力は大幅に向上した.こうした成功を受け,静的評価関数とアルファベータ木探索による従来の手法が成功を収めてきた将棋においても,モンテカルロ法の適用が模索されている.MCTSの改良は,モンテカルロ木の扱いに関するものと,プレイアウトの方策に関するものに大別される.本稿では後者に着目し,モンテカルロ将棋の方策の学習に,囲碁で成功を収めているシミュレーション・バランシングを適用することを提案する.実際に,3,000局面でのバランシング方策の学習を行った.対戦実験による評価の結果,提案手法の特に序中盤での有用性を示すことができた.また,バランシングを適用するうえで,詰み付近の局面における将棋特有の課題を解析し,プレイアウトに詰み探索を導入することで一定の改善が行えることを示した.Since the advent of Monte-Carlo tree search (MCTS), strong computer players using Monte-Carlo methods have been built for the game of go. Following these successes, application of the methods has been explored to the game of shogi for which conventional methods have also been successful. Improvement efforts of MCTS can be roughly classified into two: the way to deal with Monte-Carlo tree and the simulation policy. In this paper, we propose to apply simulation balancing that has succeeded in go to learn the policy of Monte-Carlo shogi players. We use this learning method with 3,000 positions and evaluate the performance. The proposed method is found to be effective in opening and middle game. Then, we analyze a problem unique to shogi endgames and alleviate it by performing checkmate search in playout.
著者
鶴岡 慶雅 近山 隆
出版者
言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.9, no.3, pp.3-19, 2002-04

統計的クラス分類器としての決定リストは,近年自然言語処理における様々な分野でその有効性を示している.決定リストを構成する上で最も重要な問題の一つは,ルールの信頼度の算出法である.決定リストを用いた多くの研究では,最尤推定法と簡単なスムージングにより信頼度を算出しているが,理論的な根拠に欠け推定精度も高くないという問題がある.そこで本論文では,ベイズ学習法を利用してルールの信頼度を算出する手法を示す.さらに,証拠の種類ごとに異なる事前分布を利用することで,より正確な信頼度の推定が可能になり,決定リストの性能が向上することを示す.本手法の有効性を確かめるために,語義曖昧性解消の問題に決定リストを適用して実験を行なった.英語に関してはSenseval-1 のデータを用い,日本語に関しては疑似単語を用いた.その結果,ベイズ学習による信頼度推定手法が,ルールの確率値の推定精度を高め,決定リストの分類性能を向上させることを確認した.
著者
鶴岡 慶雅
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.44, no.9, pp.900-904, 2003-09-15
被引用文献数
1