与我交流
与我交流

# 强化学习基础

内容包括:

  • 强化学习(RL)与前几章中介绍的监督学习有何不同
  • 强化学习的基本范式:代理,环境,行为和奖励,以及它们之间的相互作用
  • 解决 RL 问题的两种主要方法背后的一般思想:基于策略的方法和基于价值的方法
  • 以示例为基础的基于策略的 RL 算法:使用策略梯度(PG)方法解决购物车问题
  • 通过基于 Q 值的 RL 算法为例:使用深度 Q 网络(DQN)解决蛇游戏。
上次更新: 11/15/2020, 1:05:56 PM