强化学习揭秘:Q-learning与策略梯度入门

1003

1 强化学习基础概念
   1.1 强化学习的定义与组成要素
   1.2 马尔可夫决策过程与奖励函数
   1.3 状态价值函数与动作价值函数


2 Q-learning基本原理与实现
   2.1 Q-learning算法介绍
   2.2 表格型Q-learning实现
   2.3 Q-learning收敛性与稳定性


3 深度Q-learning网络(DQN)
   3.1 神经网络在Q-learning中的应用
   3.2 经验回放与目标网络
   3.3 DQN算法实现与应用案例