REINFORCE Algorithm でジャンプアクションを学習させてみた

こんにちは． TRSasasusu です．今回は前回に引き続き強化学習の話です．

前回のQ学習は行動価値関数を更新していくことで学習を進めましたが，今回の REINFORCE Algorithm は直接方策を更新していくことで学習を進める方策勾配に基づくアルゴリズムの一種です．

方策勾配に基づく強化学習は状態空間や行動空間が連続であっても取り扱うことができます．ですが，なんとなく連続な状態空間における離散的な行動空間を持つ問題をやってみました．具体的には，ジャンプで穴を飛び越えることを学習していきます．ジャンプするのが早すぎてもタイミングが合わず落ちますし，ジャンプしなくてももちろん落ちます．行動はジャンプするかしないかで，横方向への移動に関しては自動で右へ一定の早さで進ませます．穴との距離と方策の確率モデルのパラメータの関係式をソフトマックス関数に入れ，これを計算して勾配を求めてパラメータを更新しました．

$$ \nabla_{\theta}J(\theta) = \sum^M_{m=1}\sum^T_{t=1}(R^m_t – \overline{b})\nabla_{\theta}\log{\pi_{\theta}}(a^m_t|s^m_t) $$
$$ \theta_{t+1} = \theta_t + \eta\nabla_{\theta}J(\theta) $$

また，報酬については，ジャンプしたら減点（疲れるから），落ちたら大きく減点，穴を越えたら大きく加点という形にしました．

結果は以下のようになりました．