強化学習メモ(統一)
・エージェント
動作する主体
・環境
エージェントが行動を行ったり,報酬を受け取ったり,観測をしたりする空間.
.状態
環境内でエージェントの置かれている状態,時刻で変化する.
・観測
状態をエージェントが知るために行う動作.
状態を観測で完全に把握できるとは限らない.
・行動
エージェントが環境に対して行う物.
・報酬
行動をした後に受け取るもの.
エージェントの行動により受け取る報酬が変わる.
エージェントの行動の良さを直接的に示すものではない.
今までに行ってきた行動にも影響される.
・方策
状態が与えられたときのエージェントの行動規則.
強化学習では一般的に確立で表される.
・強化学習
強化学習では,報酬の総和を最大化する最適な方策を求めたい.
・マルコフ性
有限回の連続した観測で現在の状態が把握できるような性質.
・マルコフ決定過程
状態の観測がマルコフ性を持つとき,エージェントが観測・行動・報酬の受け取りを行うというのを繰り返し行い,割引率に基づいた総和報酬を最大化する方策を求める過程.
このとき,状態,行動は有限である.
・状態価値
エージェントにとっての,ある状態の価値.
割引率と未来報酬,方策によって決定される.
エージェントがいなければ状態の価値は存在しない.
・行動価値
エージェントにとっての,ある状態においてのある行動の価値.
割引率と未来報酬,方策によって決定される.
エージェントがいなければ行動の価値は存在しない.
行動の価値を方策に基づき行動を周辺化すれば,状態価値を求めることができる.
・Bellman方程式
状態価値・行動価値をエージェントが計算するための方程式
・Bellman方程式の解法
動的計画法,モンテカルロ法,TD法.
・動的計画法
エージェントが,環境のモデルを完全に把握しているとき,Bellman方程式を方策反復,価値反復により求める事ができる.
方策価値,行動価値を方策改善定理に基づき改善する.
・モンテカルロ法
エージェントが,環境のモデルを把握していないとき,Bellman方程式を求める方法.時間がかかる.
方策価値,行動価値を方策改善定理に基づき改善する.
・TD法
エージェントが,環境のモデルを把握していないときに適用できる.
逐次的に学習するので早い.方策価値の推定と方策の改善を同時に行う.
TD法には,方策オン方式のSarsa法,方策オフ方式のQ学習がある.
・Q学習
強化学習でよく聞く学習法.
[Q(s_t,a)←Q(s_t,a)+\alpha [\gamma \max_p Q(s_{t+1},p)-Q(s_t,a)]]
で行動価値を変化させることで学習する.挙動方策はソフトマックス法を用いる.
Posted on: 2016年4月4日, by : UMU