强化学习 Chapter 1 - 基本定义和基础概念
首次发布: 2025-04-06
... 次访问
Markov决策过程(MDP)是强化学习的基础模型,是一种通过与环境交互从而学习一个策略,实现最大化累积奖励的理论框架。MDP的数学模型由状态空间、动作空间、转移概率和奖励函数组成。时至今日,MDP已经成为强化学习的标准模型,被广泛应用于各个领域,包括机器人控制、游戏AI和自动驾驶等。
3746 个字词
|
19 分钟
强化学习 Chapter 2 - 动态规划方法
首次发布: 2025-04-10
... 次访问
通过求解 Bellman 最优方程,我们可以得到最优策略和最优状态价值函数。Bellman 最优方程是一个递归方程,它将当前状态的价值与下一个状态的价值联系起来。上节中我们推导得到的 Bellman 最优方程的形式如下
3401 个字词
|
17 分钟
强化学习 Chapter 3 - Monte Carlo 方法
首次发布: 2025-04-17
... 次访问
当把强化学习的问题建模为一个马尔可夫决策过程(MDP)时,我们如果拥有一个完整的环境模型(即状态转移概率和奖励函数),那么就可以用动态规划的方法来求解最优策略。然而,现实中,我们很难能够得到一个完整的环境模型。我们往往只能通过与真实环境不断交互获得一个个的交互数据,并从中来学习到一个近似的环境模型。在这种情况下,是用动态规划方法求解最优策略一定是会有偏差的。如果能够找到一种不需要环境模型的最优策略求解方法,就可以绕开环境模型的估计,从而学习到一个最优策略。
4010 个字词
|
20 分钟
强化学习 Chapter 4 - 时序差分学习
首次发布: 2025-04-18
... 次访问
时序差分学习 (Temporal-Difference Learning) 无疑是强化学习中最核心的方法之一,它结合了 Dynamic Programming 算法 和 Monte Carlo 算法的思想。与 MC 方法类似,TD 方法也是直接从与环境交互的经验中学习策略,而不需要环境的模型。但是,与 MC 不同的是,TD 不需要等待交互的最终结果,因为使用了自举法 (bootstraping),因此可以像 DP 一样基于已得到的其他状态的估计值来更新当前状态的价值函数。
4140 个字词
|
21 分钟
强化学习 Chapter 5 - 基于价值的深度强化学习
首次发布: 2025-04-19
... 次访问
对于状态空间与动作空间均规模较小且离散的有限型问题,我们可以创建一个查询表,在表中维护价值函数,从而用于求解问题。这类问题也被称作表格型问题。但是,当问题规模变大,或者说成为连续型问题时,维护表格的方法就不合适了。例如,下围棋和自动驾驶汽车,一个是超大的状态空间,一个是连续的状态空间,显然不适合使用表格处理。
2613 个字词
|
13 分钟
强化学习 Chapter 6 - 策略梯度方法
首次发布: 2025-04-20
... 次访问
策略方法是强化学习中的一类重要方法。其核心思想是,直接优化参数化策略函数 \pi_\theta(a|s),以最大化期望的累计折扣奖励
5964 个字词
|
30 分钟
强化学习 Chapter 7 - 强化学习与多智能体系统
首次发布: 2025-06-13
... 次访问
零和博弈是博弈论中的一个重要概念,也是多智能体系统中的基础理论。在零和博弈中,参与者的利益完全对立,一方的收益正好等于其他方的损失总和,因此所有参与者的收益与损失的总和为零。
4461 个字词
|
22 分钟
大模型中的强化学习
首次发布: 2025-08-25
... 次访问
大模型的预训练(next-token prediction)在形式上可以看作一种行为克隆(Behavioral Cloning, BC)—— 给定输入 x(上下文),最大化正确输出 y 的似然。
1996 个字词
|
10 分钟
FlowRL - Matching Reward Distributions for LLM Reasoning
首次发布: 2026-02-09
... 次访问
Large language model (LLM) reasoning is typically formulated as a conditional generation problem: given a question \mathbf{x} \in \mathcal{X}, a policy model \pi_{\theta}(\mathbf{y}|\mathbf{x}) generates an answer \mathbf{y} \in \mathcal{Y}. The quality of the answer is evaluated by a task-specific reward signal r(\mathbf{x}, \mathbf{y}). In reasoning tasks, the reward is usually sparse and terminal (e.g., correctness of the final answer), which means we consider one-step reward instead of returns (i.e., discounted sum of rewards over time steps).
1536 个字词
|
8 分钟