簡単な迷路探索でQ学習を使ってみた
簡単な迷路探索でQ学習を使ってみた
Q学習(強化学習の一種)を用いて,固定迷路を解くエージェントを実装する.
迷路は固定で,大きさは8×3.左上がスタート,右下がゴールとして.ゴールに到達した時報酬をもらい,イテレーション終了.これを難度も繰り返す.
実験結果はこのようになりました.↓
100イテレーションおきにを動画で出力してあります.
スタートからゴールに行くまでにかかったターン数をグラフにしてみると,次のようになった.
このグラフを見るとわかると思うが,約1500ターンを境目に逆にかかるターン数が増加している.これがなぜなのか調査する必要があると考える.
調査項目
alpha = 学習率 gamma = 割引率 goal = ゴール時報酬
alpha = 0.01 gamma = 0.99 goal=1.0 10000itersで全然学習せず
alpha = 0.01 gamma = 0.99 goal=100 1500がピーク
Posted on: 2016年4月3日, by : UMU