Computer Disaaembly - 搜索 News

ICML 2026 | Agentic强化学习训练的信息自锁问题

本文作者邹德誉，香港中文大学计算机科学与工程系博士生，本科毕业于中国科学技术大学。研究方向为大语言模型智能体、强化学习与主动推理，关注模型在信息不完备的多轮交互中如何主动获取、更新并利用信念。相关工作发表于 ICLR 2026 Oral 与 ICML ...

一些您可能无法访问的结果已被隐去。