Posts
Page 9 - Showing 8 of 75 posts
View all posts by years →强化学习 Chapter 2 - 动态规划方法
通过求解 Bellman 最优方程,我们可以得到最优策略和最优状态价值函数。Bellman 最优方程是一个递归方程,它将当前状态的价值与下一个状态的价值联系起来。上节中我们推导得到的 Bellman 最优方程的形式如下
3401 个字词
|
17 分钟
动态规划
动态规划其实就是动态的调整策略,来达到最优解。它的核心思想是将复杂问题分解成简单子问题,通过保存子问题的解来避免重复计算。动态规划通常适用于具有重叠子问题和最优子结构性质的问题。
3164 个字词
|
16 分钟
模拟退火算法
模拟退火 (simulated annealing) 算法是一种用于求解最优化问题的随机化算法。它的灵感来源于物理退火过程的启发,通过模拟固体加温、等温、冷却等过程,结合 Metropolis 采样准则进行科学计算的一种启发式算法。模拟退火算法在解决组合优化问题、函数优化问题等方面表现出色,尤其适用于大规模复杂问题的求解。
2763 个字词
|
14 分钟
Collections
Tech Notes
Be a big fan of rising technologies.
Algorithm Notes
Woo. Time-tested wisdom.
强化学习合集
Notes on reading papers in the field of reinforcement learning.
Maths Laboratory
Do mathematics have a lab as well? Absolutely, with computer simulations.
生成式模型合集
Generative Models, modeling complex data distributions.
Tags

