学术

... 次访问 最后更新: 2026-03-16

个人简介

我关注大模型在复杂任务中的决策能力构建,聚焦于如何通过强化学习实现行为对齐——让模型不仅输出正确答案,更能在安全、可靠、符合人类价值观的前提下做出合理选择。当前研究兴趣包括:

  • 奖励模型的设计与训练机制;
  • 智能体框架中的规划、记忆与工具调用;
  • 多模态输入下的联合推理与策略生成。

研究方向

决策模型

多模态大模型(如 VLM)在理解图像与语言结合的任务上表现出色,是构建复杂决策系统的重要基础。此外,像 JEPA 这类在连续向量空间中建模的新兴架构,在未来可能为更通用的决策能力提供底层支撑。

奖励模型

奖励模型是强化学习训练中的‘裁判’,它决定哪些输出值得鼓励。通过合理设计奖励函数,可以让模型学会更安全、更可靠、更符合人类期望的回答,是实现对齐的关键环节。

智能体框架

智能体框架定义了模型如何与环境互动:从接收任务、思考规划,到调用工具、执行动作并反思结果。一个优秀的框架能显著提升智能体的自主性、鲁棒性和解决问题的能力。

代表性出版物

搬砖中...

努力肝科研中!论文就要来了,敬请期待...