的规模与结构,是衡量高校核心竞争力的关键指标。然而,这些数据分散于国家自 然科学基金委、教育部、中组部、高校官网等多个异构公开来源。各来源在统计口 径(“在岗人数”vs“累计入选”、“人数”vs“人次”)、时间戳和数值上存在 显著冲突。
最近在写一本《Harness Engineering 实战》。第七章是验证层,原本只是想引几篇 Anthropic 和 METR 的论文带过去。结果跑实验跑出了几个反直觉的数字,干脆停下来把整章重新梳理了一遍。 我用 DeepSeek 改 5 个 Python bug,每个跑 3 次。 15 次结果都是"任务完成 "。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果