课堂笔记

该分类下共有 54 篇文章
返回所有文章
Variational Autoencoder
首次发布: 2025-05-03
... 次访问
Assume a data generation process, where z \sim p(z) represent latent variables (certain features like size, color, position) and x \sim p_{real}(x) represent real observed variables (e.g. images, videos, texts). Our aim is to generate an observed variable via latent variables and a generator. Here, we bridge the latent distribution and the observed distribution with a conditional probability function p_\theta(x|z), which is a mathematical description of the generator.
1312 个字词
|
7 分钟
人工免疫算法
首次发布: 2025-04-24
... 次访问
人工免疫计算(Artificial Immune Systems, AIS)是一类受生物免疫系统启发的智能优化与学习方法族。常见应用包括:连续/离散优化、组合优化、分类与聚类、异常检测、在线自适应控制等。
3841 个字词
|
19 分钟
强化学习 Chapter 6 - 策略梯度方法
首次发布: 2025-04-20
... 次访问
策略方法是强化学习中的一类重要方法。其核心思想是,直接优化参数化策略函数 \pi_\theta(a|s),以最大化期望的累计折扣奖励
5964 个字词
|
30 分钟
强化学习 Chapter 5 - 基于价值的深度强化学习
首次发布: 2025-04-19
... 次访问
对于状态空间与动作空间均规模较小且离散的有限型问题,我们可以创建一个查询表,在表中维护价值函数,从而用于求解问题。这类问题也被称作表格型问题。但是,当问题规模变大,或者说成为连续型问题时,维护表格的方法就不合适了。例如,下围棋和自动驾驶汽车,一个是超大的状态空间,一个是连续的状态空间,显然不适合使用表格处理。
2613 个字词
|
13 分钟
强化学习 Chapter 4 - 时序差分学习
首次发布: 2025-04-18
... 次访问
时序差分学习 (Temporal-Difference Learning) 无疑是强化学习中最核心的方法之一,它结合了 Dynamic Programming 算法 和 Monte Carlo 算法的思想。与 MC 方法类似,TD 方法也是直接从与环境交互的经验中学习策略,而不需要环境的模型。但是,与 MC 不同的是,TD 不需要等待交互的最终结果,因为使用了自举法 (bootstraping),因此可以像 DP 一样基于已得到的其他状态的估计值来更新当前状态的价值函数。
4140 个字词
|
21 分钟
群体智能算法
首次发布: 2025-04-17
... 次访问
Swarm 本义为昆虫群体,在自然计算中,有一类受昆虫群体行为启发的算法,称为群体智能(Swarm Intelligence)。群体中的个体行为非常简单,但是当它们一起协同工作时,能够产生复杂的行为。
4214 个字词
|
21 分钟
禁忌搜索
首次发布: 2025-04-17
... 次访问
禁忌搜索是对人类大脑的记忆功能进行模仿的
1134 个字词
|
6 分钟
强化学习 Chapter 3 - Monte Carlo 方法
首次发布: 2025-04-17
... 次访问
当把强化学习的问题建模为一个马尔可夫决策过程(MDP)时,我们如果拥有一个完整的环境模型(即状态转移概率和奖励函数),那么就可以用动态规划的方法来求解最优策略。然而,现实中,我们很难能够得到一个完整的环境模型。我们往往只能通过与真实环境不断交互获得一个个的交互数据,并从中来学习到一个近似的环境模型。在这种情况下,是用动态规划方法求解最优策略一定是会有偏差的。如果能够找到一种不需要环境模型的最优策略求解方法,就可以绕开环境模型的估计,从而学习到一个最优策略。
4010 个字词
|
20 分钟