最近在写一本《Harness Engineering 实战》。第七章是验证层,原本只是想引几篇 Anthropic 和 METR 的论文带过去。结果跑实验跑出了几个反直觉的数字,干脆停下来把整章重新梳理了一遍。 我用 DeepSeek 改 5 个 Python bug,每个跑 3 次。 15 次结果都是"任务完成 "。
💭 思考过程:AI分析请求、设计方案的过程 ⚙️ 执行过程:AI执行任务的详细步骤 最终结果:完整的执行结果 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果一些您可能无法访问的结果已被隐去。
显示无法访问的结果