强化学习揭秘：Q-learning与策略梯度入门

1003

1 强化学习基础概念
1.1 强化学习的定义与组成要素
1.2 马尔可夫决策过程与奖励函数
1.3 状态价值函数与动作价值函数

2 Q-learning基本原理与实现
2.1 Q-learning算法介绍
2.2 表格型Q-learning实现
2.3 Q-learning收敛性与稳定性

3 深度Q-learning网络(DQN)
3.1 神经网络在Q-learning中的应用
3.2 经验回放与目标网络
3.3 DQN算法实现与应用案例

声音（28）评价（0）

正序 | 倒序

7.3 自然语言处理与对话系统
51
11月前
7.2 游戏AI与决策优化
26
11月前
7.1 机器人控制与导航
19
11月前
7 强化学习实战案例
56
11月前
6.3 并行计算与分布式强化学习
39
11月前
6.2 自适应学习率与优化算法
36
11月前
6.1 函数逼近方法
26
11月前
6 逼近方法与优化技巧
37
11月前
5.3 实现细节与应用案例
19
11月前
5.2 Actor-Critic方法原理
46
11月前
5.1 REINFORCE算法介绍
37
11月前
5 REINFORCE算法与Actor-Critic方法
35
11月前
4.3 梯度估计与更新策略
30
11月前
4.2 策略表示与评估
42
11月前
4.1 策略梯度算法概述
47
11月前
4 策略梯度方法基本原理
33
11月前
3.3 DQN算法实现与应用案例
18
11月前
3.2 经验回放与目标网络
50
11月前
3.1 神经网络在Q-learning中的应用
24
11月前
3 深度Q-learning网络(DQN)
21
11月前
2.3 Q-learning收敛性与稳定性
33
11月前
2.2 表格型Q-learning实现
23
11月前
2.1 Q-learning算法介绍
41
11月前
2 Q-learning基本原理与实现
51
11月前
1.3 状态价值函数与动作价值函数
26
11月前
1.2 马尔可夫决策过程与奖励函数
54
11月前
1.1 强化学习的定义与组成要素
41
11月前
1 强化学习基础概念
42
11月前

专辑主播

平平安安幸福美满

2661 86 1930

简介：每天录音，每天成长！日积月累！水滴石穿！

TA的专辑