Course Notes
54 posts in this category
Back to all posts →强化学习 Chapter 2 - 动态规划方法
通过求解 Bellman 最优方程,我们可以得到最优策略和最优状态价值函数。Bellman 最优方程是一个递归方程,它将当前状态的价值与下一个状态的价值联系起来。上节中我们推导得到的 Bellman 最优方程的形式如下
3401 个字词
|
17 分钟
动态规划
动态规划其实就是动态的调整策略,来达到最优解。它的核心思想是将复杂问题分解成简单子问题,通过保存子问题的解来避免重复计算。动态规划通常适用于具有重叠子问题和最优子结构性质的问题。
3164 个字词
|
16 分钟
Collections
Tech Notes
Be a big fan of rising technologies.
Algorithm Notes
Woo. Time-tested wisdom.
强化学习合集
Notes on reading papers in the field of reinforcement learning.
Maths Laboratory
Do mathematics have a lab as well? Absolutely, with computer simulations.
生成式模型合集
Generative Models, modeling complex data distributions.
Tags

