所有文章
第 8 页 - 当前显示 8 篇,共 75 篇文章
按年份查看所有文章 →强化学习 Chapter 5 - 基于价值的深度强化学习
对于状态空间与动作空间均规模较小且离散的有限型问题,我们可以创建一个查询表,在表中维护价值函数,从而用于求解问题。这类问题也被称作表格型问题。但是,当问题规模变大,或者说成为连续型问题时,维护表格的方法就不合适了。例如,下围棋和自动驾驶汽车,一个是超大的状态空间,一个是连续的状态空间,显然不适合使用表格处理。
2613 个字词
|
13 分钟
强化学习 Chapter 4 - 时序差分学习
时序差分学习 (Temporal-Difference Learning) 无疑是强化学习中最核心的方法之一,它结合了 Dynamic Programming 算法 和 Monte Carlo 算法的思想。与 MC 方法类似,TD 方法也是直接从与环境交互的经验中学习策略,而不需要环境的模型。但是,与 MC 不同的是,TD 不需要等待交互的最终结果,因为使用了自举法 (bootstraping),因此可以像 DP 一样基于已得到的其他状态的估计值来更新当前状态的价值函数。
4140 个字词
|
21 分钟
群体智能算法
Swarm 本义为昆虫群体,在自然计算中,有一类受昆虫群体行为启发的算法,称为群体智能(Swarm Intelligence)。群体中的个体行为非常简单,但是当它们一起协同工作时,能够产生复杂的行为。
4214 个字词
|
21 分钟
强化学习 Chapter 3 - Monte Carlo 方法
当把强化学习的问题建模为一个马尔可夫决策过程(MDP)时,我们如果拥有一个完整的环境模型(即状态转移概率和奖励函数),那么就可以用动态规划的方法来求解最优策略。然而,现实中,我们很难能够得到一个完整的环境模型。我们往往只能通过与真实环境不断交互获得一个个的交互数据,并从中来学习到一个近似的环境模型。在这种情况下,是用动态规划方法求解最优策略一定是会有偏差的。如果能够找到一种不需要环境模型的最优策略求解方法,就可以绕开环境模型的估计,从而学习到一个最优策略。
4010 个字词
|
20 分钟

