学术
... 次访问 • 最后更新: 2026-03-16
个人简介
我关注大模型在复杂任务中的决策能力构建,聚焦于如何通过强化学习实现行为对齐——让模型不仅输出正确答案,更能在安全、可靠、符合人类价值观的前提下做出合理选择。当前研究兴趣包括:
- 奖励模型的设计与训练机制;
- 智能体框架中的规划、记忆与工具调用;
- 多模态输入下的联合推理与策略生成。
研究方向
决策模型
多模态大模型(如 VLM)在理解图像与语言结合的任务上表现出色,是构建复杂决策系统的重要基础。此外,像 JEPA 这类在连续向量空间中建模的新兴架构,在未来可能为更通用的决策能力提供底层支撑。
奖励模型
奖励模型是强化学习训练中的‘裁判’,它决定哪些输出值得鼓励。通过合理设计奖励函数,可以让模型学会更安全、更可靠、更符合人类期望的回答,是实现对齐的关键环节。
智能体框架
智能体框架定义了模型如何与环境互动:从接收任务、思考规划,到调用工具、执行动作并反思结果。一个优秀的框架能显著提升智能体的自主性、鲁棒性和解决问题的能力。
代表性出版物
搬砖中...
努力肝科研中!论文就要来了,敬请期待...
目录

