学术

... 次访问 • 最后更新: 2026-03-16

个人简介

我关注大模型在复杂任务中的决策能力构建，聚焦于如何通过强化学习实现行为对齐——让模型不仅输出正确答案，更能在安全、可靠、符合人类价值观的前提下做出合理选择。当前研究兴趣包括:

多模态大模型（如 VLM）在理解图像与语言结合的任务上表现出色，是构建复杂决策系统的重要基础。此外，像 JEPA 这类在连续向量空间中建模的新兴架构，在未来可能为更通用的决策能力提供底层支撑。

奖励模型是强化学习训练中的‘裁判’，它决定哪些输出值得鼓励。通过合理设计奖励函数，可以让模型学会更安全、更可靠、更符合人类期望的回答，是实现对齐的关键环节。

智能体框架定义了模型如何与环境互动：从接收任务、思考规划，到调用工具、执行动作并反思结果。一个优秀的框架能显著提升智能体的自主性、鲁棒性和解决问题的能力。

努力肝科研中！论文就要来了，敬请期待...