课堂笔记

Algorithms

人工免疫计算（Artificial Immune Systems, AIS）是一类受生物免疫系统启发的智能优化与学习方法族。常见应用包括：连续/离散优化、组合优化、分类与聚类、异常检测、在线自适应控制等。

3841 个字词

19 分钟

强化学习 Chapter 6 - 策略梯度方法

首次发布: 2025-04-20

... 次访问

强化学习 Chapter 5 - 基于价值的深度强化学习

策略方法是强化学习中的一类重要方法。其核心思想是，直接优化参数化策略函数 \pi_\theta(a|s)，以最大化期望的累计折扣奖励

5964 个字词

30 分钟

首次发布: 2025-04-19

... 次访问

对于状态空间与动作空间均规模较小且离散的有限型问题，我们可以创建一个查询表，在表中维护价值函数，从而用于求解问题。这类问题也被称作表格型问题。但是，当问题规模变大，或者说成为连续型问题时，维护表格的方法就不合适了。例如，下围棋和自动驾驶汽车，一个是超大的状态空间，一个是连续的状态空间，显然不适合使用表格处理。

2613 个字词

13 分钟

强化学习 Chapter 4 - 时序差分学习

首次发布: 2025-04-18

... 次访问

时序差分学习 (Temporal-Difference Learning) 无疑是强化学习中最核心的方法之一，它结合了 Dynamic Programming 算法和 Monte Carlo 算法的思想。与 MC 方法类似，TD 方法也是直接从与环境交互的经验中学习策略，而不需要环境的模型。但是，与 MC 不同的是，TD 不需要等待交互的最终结果，因为使用了自举法 (bootstraping)，因此可以像 DP 一样基于已得到的其他状态的估计值来更新当前状态的价值函数。

4140 个字词

21 分钟

群体智能算法

首次发布: 2025-04-17

... 次访问

Algorithms

Swarm 本义为昆虫群体，在自然计算中，有一类受昆虫群体行为启发的算法，称为群体智能（Swarm Intelligence）。群体中的个体行为非常简单，但是当它们一起协同工作时，能够产生复杂的行为。

4214 个字词

21 分钟

禁忌搜索

首次发布: 2025-04-17

... 次访问

强化学习 Chapter 3 - Monte Carlo 方法

Algorithms

禁忌搜索是对人类大脑的记忆功能进行模仿的

1134 个字词

6 分钟

首次发布: 2025-04-17

... 次访问