所有文章
第 9 页 - 当前显示 8 篇,共 75 篇文章
按年份查看所有文章 →强化学习 Chapter 2 - 动态规划方法
通过求解 Bellman 最优方程,我们可以得到最优策略和最优状态价值函数。Bellman 最优方程是一个递归方程,它将当前状态的价值与下一个状态的价值联系起来。上节中我们推导得到的 Bellman 最优方程的形式如下
3401 个字词
|
17 分钟
动态规划
动态规划其实就是动态的调整策略,来达到最优解。它的核心思想是将复杂问题分解成简单子问题,通过保存子问题的解来避免重复计算。动态规划通常适用于具有重叠子问题和最优子结构性质的问题。
3164 个字词
|
16 分钟
模拟退火算法
模拟退火 (simulated annealing) 算法是一种用于求解最优化问题的随机化算法。它的灵感来源于物理退火过程的启发,通过模拟固体加温、等温、冷却等过程,结合 Metropolis 采样准则进行科学计算的一种启发式算法。模拟退火算法在解决组合优化问题、函数优化问题等方面表现出色,尤其适用于大规模复杂问题的求解。
2763 个字词
|
14 分钟

