簡単な迷路探索でQ学習を使ってみた

Q学習（強化学習の一種）を用いて，固定迷路を解くエージェントを実装する．

迷路は固定で，大きさは８×３．左上がスタート，右下がゴールとして．ゴールに到達した時報酬をもらい，イテレーション終了．これを難度も繰り返す．

実験結果はこのようになりました．↓

１００イテレーションおきにを動画で出力してあります．

スタートからゴールに行くまでにかかったターン数をグラフにしてみると，次のようになった．

このグラフを見るとわかると思うが，約1500ターンを境目に逆にかかるターン数が増加している．これがなぜなのか調査する必要があると考える．

調査項目

alpha = 学習率 gamma = 割引率 goal = ゴール時報酬

alpha = 0.01 gamma = 0.99 goal=1.0 10000itersで全然学習せず

alpha = 0.01 gamma = 0.99 goal=100 1500がピーク

Posted on: 2016年4月3日, by : UMU