科技行者 on MSN
上海人工智能实验室的35B小模型,凭什么能打赢万亿参数的“巨无霸”?
这项由上海人工智能实验室主导的研究成果以预印本形式发布于2026年6月29日,论文编号为arXiv:2606.30616,有兴趣深入了解的读者可通过该编号查询完整原文。研究团队推出了一个名为Agents-A1的智能体模型,它的参数规模只有350亿,却在多项任务上的表现追平甚至超越了参数量超过万亿的顶级商业大模型。这个结果乍听起来有些不可思议——毕竟在AI领域 ...
研究团队提出了一种无训练、即插即用的解码策略——Confident Decoding(置信解码)。 传统认知默认:随着网络深度单调递增,思考结果也会变得更准确。 各类开源自回归大语言模型(LLM)的生成,也总是从最后一层输出。 然而,来自Qwen团队、清华大学、南洋 ...
专注AIGC技术的专业社区,关注大语言模型(LLM)的发展和应用落地,聚焦LLM及AI技术的市场研究和开发者生态,欢迎关注!Anthropic到底招什么样的人?很多人脑海中浮现的画面是:一屋子的博士,喝着咖啡讨论RLHF,在白板上推导损失函数。真实情 ...
当我们谈论“大模型”(LLM)时,很多人脑海中第一时间浮现的是密密麻麻的 Python 代码、复杂的神经网络和高不可攀的技术门槛。这导致许多对 AI 充满好奇的文字创作者、设计师、游戏策划或运营人员,只能停留在使用 ChatGPT 闲聊的浅层体验上。 当你试图用 AI 辅助构建一个拥有独立支线剧情的 30 万字悬疑大纲,或者让它帮忙处理一份包含数百个维度的杂乱行业数据表格时,往往会发现:简单的对话 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果