本文作者邹德誉,香港中文大学计算机科学与工程系博士生,本科毕业于中国科学技术大学。研究方向为大语言模型智能体、强化学习与主动推理,关注模型在信息不完备的多轮交互中如何主动获取、更新并利用信念。相关工作发表于 ICLR 2026 Oral 与 ICML ...