所有文章

第 8 页 - 当前显示 8 篇，共 75 篇文章

首次发布: 2025-04-19

... 次访问

对于状态空间与动作空间均规模较小且离散的有限型问题，我们可以创建一个查询表，在表中维护价值函数，从而用于求解问题。这类问题也被称作表格型问题。但是，当问题规模变大，或者说成为连续型问题时，维护表格的方法就不合适了。例如，下围棋和自动驾驶汽车，一个是超大的状态空间，一个是连续的状态空间，显然不适合使用表格处理。

2613 个字词

13 分钟

强化学习 Chapter 4 - 时序差分学习

首次发布: 2025-04-18

... 次访问

Course Notes

Theory

AI Basics

时序差分学习 (Temporal-Difference Learning) 无疑是强化学习中最核心的方法之一，它结合了 Dynamic Programming 算法和 Monte Carlo 算法的思想。与 MC 方法类似，TD 方法也是直接从与环境交互的经验中学习策略，而不需要环境的模型。但是，与 MC 不同的是，TD 不需要等待交互的最终结果，因为使用了自举法 (bootstraping)，因此可以像 DP 一样基于已得到的其他状态的估计值来更新当前状态的价值函数。

4140 个字词

21 分钟

群体智能算法

首次发布: 2025-04-17

... 次访问

Course Notes

Algorithms

Swarm 本义为昆虫群体，在自然计算中，有一类受昆虫群体行为启发的算法，称为群体智能（Swarm Intelligence）。群体中的个体行为非常简单，但是当它们一起协同工作时，能够产生复杂的行为。

4214 个字词

21 分钟

禁忌搜索

首次发布: 2025-04-17

... 次访问

Course Notes

Algorithms

禁忌搜索是对人类大脑的记忆功能进行模仿的

1134 个字词

6 分钟

强化学习 Chapter 3 - Monte Carlo 方法

首次发布: 2025-04-17

... 次访问

Course Notes

Theory

AI Basics

当把强化学习的问题建模为一个马尔可夫决策过程（MDP）时，我们如果拥有一个完整的环境模型（即状态转移概率和奖励函数），那么就可以用动态规划的方法来求解最优策略。然而，现实中，我们很难能够得到一个完整的环境模型。我们往往只能通过与真实环境不断交互获得一个个的交互数据，并从中来学习到一个近似的环境模型。在这种情况下，是用动态规划方法求解最优策略一定是会有偏差的。如果能够找到一种不需要环境模型的最优策略求解方法，就可以绕开环境模型的估计，从而学习到一个最优策略。

4010 个字词

20 分钟

机器人学基础第三章逆向运动学

首次发布: 2025-04-16

... 次访问

Course Notes

Theory

机械臂的逆向运动学

1269 个字词

6 分钟

分布估计算法

首次发布: 2025-04-13