课堂笔记
该分类下共有 54 篇文章
返回所有文章 →强化学习 Chapter 2 - 动态规划方法
通过求解 Bellman 最优方程,我们可以得到最优策略和最优状态价值函数。Bellman 最优方程是一个递归方程,它将当前状态的价值与下一个状态的价值联系起来。上节中我们推导得到的 Bellman 最优方程的形式如下
3401 个字词
|
17 分钟
动态规划
动态规划其实就是动态的调整策略,来达到最优解。它的核心思想是将复杂问题分解成简单子问题,通过保存子问题的解来避免重复计算。动态规划通常适用于具有重叠子问题和最优子结构性质的问题。
3164 个字词
|
16 分钟

