强化学习合集 - Ada Lovelemon

强化学习 Chapter 5 - 基于价值的深度强化学习

时序差分学习 (Temporal-Difference Learning) 无疑是强化学习中最核心的方法之一，它结合了 Dynamic Programming 算法和 Monte Carlo 算法的思想。与 MC 方法类似，TD 方法也是直接从与环境交互的经验中学习策略，而不需要环境的模型。但是，与 MC 不同的是，TD 不需要等待交互的最终结果，因为使用了自举法 (bootstraping)，因此可以像 DP 一样基于已得到的其他状态的估计值来更新当前状态的价值函数。

4140 个字词

21 分钟

首次发布: 2025-04-19

... 次访问

对于状态空间与动作空间均规模较小且离散的有限型问题，我们可以创建一个查询表，在表中维护价值函数，从而用于求解问题。这类问题也被称作表格型问题。但是，当问题规模变大，或者说成为连续型问题时，维护表格的方法就不合适了。例如，下围棋和自动驾驶汽车，一个是超大的状态空间，一个是连续的状态空间，显然不适合使用表格处理。

2613 个字词

13 分钟

强化学习 Chapter 6 - 策略梯度方法

首次发布: 2025-04-20

... 次访问

强化学习 Chapter 7 - 强化学习与多智能体系统

策略方法是强化学习中的一类重要方法。其核心思想是，直接优化参数化策略函数 \pi_\theta(a|s)，以最大化期望的累计折扣奖励

5964 个字词

30 分钟

首次发布: 2025-06-13

... 次访问

零和博弈是博弈论中的一个重要概念，也是多智能体系统中的基础理论。在零和博弈中，参与者的利益完全对立，一方的收益正好等于其他方的损失总和，因此所有参与者的收益与损失的总和为零。

4461 个字词

22 分钟

大模型中的强化学习

首次发布: 2025-08-25

... 次访问

FlowRL - Matching Reward Distributions for LLM Reasoning

Large Models

Engineering

大模型的预训练（next-token prediction）在形式上可以看作一种行为克隆（Behavioral Cloning, BC）—— 给定输入 x（上下文），最大化正确输出 y 的似然。

1996 个字词

10 分钟

首次发布: 2026-02-09

... 次访问

Explorations & Insights

Large Models