🍀 Spring Appointment, Lucky Draw Gifts! Growth Value Issue 1️⃣7️⃣ Spring Lucky Draw Carnival Begins!
Seize Spring Luck! 👉 https://www.gate.com/activities/pointprize?now_period=17
🌟 How to Participate?
1️⃣ Enter [Plaza] personal homepage, click the points icon next to your avatar to enter [Community Center]
2️⃣ Complete plaza or hot chat tasks like posting, commenting, liking, and speaking to earn growth value
🎁 Every 300 points can draw once, 10g gold bars, Gate Red Bull gift boxes, VIP experience cards and more great prizes await you!
Details 👉 https://www.gate.com/announcements/article/
林俊旸离职阿里首次发文:智能体时代正在到来
__
作者:林俊旸 前通义千问Qwen负责人,阿里最年轻P10。2026年3月从阿里离职
原表标题《From “Reasoning” Thinking to “Agentic” Thinking 》
过去两年重塑了我们评估模型的方式以及对它们的期望. OpenAI的o1证明了「思考」可以成为一种一等能力(first-class capability), 一种你可以专门为其训练并向用户开放的能力. DeepSeek-R1则证明了, 这种推理风格的后训练完全可以在最初的顶尖实验室之外被复制和扩展. OpenAI将o1描述为一个利用强化学习训练出来的「在回答前先思考」的模型; 而DeepSeek则将R1定位为一个能与o1正面竞争的开源推理模型.
那个阶段意义重大. 但2025年上半年的焦点基本集中在「推理型思维」上: 如何让模型投入更多的推理期算力, 如何用更强的奖励信号来训练它们, 以及如何呈现或控制这种额外的推理投入. 现在的问题是, 下一步是什么? 我相信答案是「代理型思维」(agentic thinking): 为了行动而思考, 在与环境互动的过程中, 根据来自现实世界的反馈不断更新计划.
第一波推理模型教会了我们: 如果想在语言模型中扩展强化学习(RL), 我们就需要确定性的, 稳定的且可扩展的反馈信号. 数学, 代码, 逻辑等可验证的领域之所以成为核心, 是因为在这些场景下的奖励信号远比常规的偏好监督强烈得多. 它们让强化学习能够针对「正确性」而非「看似合理性」进行优化. 基础设施随之成为重中之重.
一旦模型被训练成能够通过更长的轨迹进行推理, 强化学习就不再只是监督微调(SFT)的一个轻量级附加组件了. 它变成了一个复杂的系统问题. 你需要大规模的策略展开(rollouts), 高吞吐量的验证机制, 稳定的策略更新, 以及高效的采样能力. 推理模型的出现, 既是建模能力的突破, 更是基础设施工程的胜利. OpenAI将o1描述为一条使用RL训练的推理产品线, 而DeepSeek R1随后进一步印证了这一方向, 它向世人展示了基于推理的RL需要多么庞大的专属算法和基建工作. 这是行业的第一次重大转变: 从扩展预训练, 转向为强化推理能力而扩展后训练.
在2025年初, 我们Qwen团队的许多人脑海中都有一个宏大的愿景: 理想的系统应该将「思考」和「指令」两种模式统一起来. 它将支持可调节的推理力度, 精神上类似于「低/中/高」档位的推理设置. 更好的是, 它能根据提示词和上下文自动推断出所需的推理量, 从而自行决定何时立即作答, 何时多想一会, 以及何时在真正的难题上投入海量的计算资源.
从概念上讲, 这是一个正确的方向. Qwen3是最清晰的公开尝试之一. 它引入了「混合思考模式」, 在同一模型系列中兼顾了思考和非思考行为, 强调了可控的思考预算, 并描述了一个四阶段的后训练流水线——其中明确包含了在长思维链(long-CoT)冷启动和推理RL之后的「思考模式融合」.
然而, 融合这件事说起来容易, 做好却极难. 难点在于数据. 当人们谈论融合思考和指令时, 首先想到的往往是模型端的兼容性: 一个检查点(checkpoint)能否支持两种模式? 一个聊天模板能否在两者间无缝切换? 服务栈能否提供相应的控制开关? 但更深层次的矛盾在于, 这两种模式的数据分布和行为目标有着本质的区别.
在试图平衡「模型融合」与「提升后训练数据质量及多样性」时, 我们踩过一些坑. 在复盘过程中, 我们密切关注了用户在实际场景中究竟是如何使用思考和指令模式的. 一个强大的指令模型, 其奖励往往来自于直接, 简洁, 遵循格式, 以及在重复性, 大批量的企业级任务(如重写, 标注, 模板化支持, 结构化提取和运营问答)上保持极低的延迟. 相反, 一个强大的思考模型, 其奖励来自于在难题上消耗更多token, 保持内部逻辑结构的连贯, 探索备选路径, 以及保留足够的内部计算量以实质性地提升最终的正确率.
这两种行为模式互为掣肘. 如果融合的数据没有经过精心策划, 结果往往是两头不讨好:「思考」行为变得嘈杂, 臃肿或优柔寡断; 而「指令」行为则失去了干脆利落, 可靠性下降, 且使用成本远超商业用户的实际预期.
因此在实践中, 将两者剥离依然具有吸引力. 2025年晚些时候, 继Qwen3最初的混合架构之后, 2507产品线发布了截然分立的Instruct(指令)和Thinking(思考)更新, 包括独立的30B和235B变体. 在商业部署中, 大量客户仍然渴望为批处理操作获取高吞吐, 低成本且高度可控的指令行为. 在这些场景下, 融合并不能带来明显的收益. 将两条产品线分开, 反而让团队能够更纯粹地解决每种模式专属的数据和训练难题.
其他实验室则选择了相反的路线. Anthropic公开主张一种集成模型的理念: Claude 3.7 Sonnet被定位为一款混合推理模型, 用户可以选择常规响应或扩展思考, API用户也能设定思考预算. Anthropic明确表示, 他们认为推理应是一种内置的集成能力, 而非剥离的独立模型. GLM-4.5同样将自身标榜为兼具两种模式的混合推理模型, 试图将推理, 编码和代理能力融为一体; DeepSeek后来也随之推出了V3.1的「思考与非思考」混合推理机制.
这里的核心问题在于, 这种融合是否自然有机. 如果思考和指令仅仅是被强行塞进同一个模型权重里, 表现得却像两个被笨拙缝合的独立人格, 那么产品体验依然会非常违和. 真正成功的融合需要一个平滑的推理投入度区间. 模型应当能够表达出不同层级的投入力度, 并在理想状态下自适应地做出选择. GPT风格的力度控制正好指明了这一点: 它是一种针对算力的调配策略, 而非简单的二元开关.
Anthropic在发布Claude 3.7和Claude 4时的对外宣传显得相当克制. 他们将重点放在了集成推理, 用户可控的思考预算, 真实世界任务, 编码质量, 以及后来推出的在扩展思考期间调用工具的能力上. Claude 3.7被展示为一款预算可控的混合推理模型; Claude 4则更进一步, 允许推理过程与工具调用交织进行. 与此同时, Anthropic反复强调, 编码, 长时间运行的任务以及代理工作流才是他们的核心目标.
仅仅生成更长的推理轨迹, 并不会自动让模型变得更聪明. 在许多情况下, 过多显露在外的推理过程, 反而暴露出算力分配的低效. 如果模型试图用同样冗长的方式去推理所有事情, 那说明它没能做好优先级排序, 未能精简信息, 或者根本无法采取实际行动. Anthropic的发展轨迹传递出一种更具纪律性的观点: 思考应当由目标工作负载来塑造. 如果目标是编码, 那么思考的价值应该体现在代码库导航, 计划制定, 任务分解, 错误恢复和工具编排上. 如果目标是代理工作流, 那么思考应该致力于提升长周期内的执行质量, 而不是去写出一篇辞藻华丽的中间论述.
这种对「目标效用」的强调指向了一个更宏大的趋势: 我们正在从训练模型的时代, 迈向训练代理(Agents)的时代. 我们在Qwen3的博客中也明确指出了这一点——「我们正在从一个专注于训练模型的时代过渡到一个以训练代理为中心的时代」, 并将未来RL的突破点与长周期推理所需的环境反馈联系在一起. 所谓代理, 是一个能够制定计划, 决定何时行动, 调用工具, 感知环境反馈, 调整策略并在长周期内持续运作的系统. 它的本质定义, 就在于与现实世界的闭环交互.
4.「代理型思维」真正意味着什么
代理型思维是一个截然不同的优化目标. 评估「推理型思维」的标准, 通常是得出最终答案前内部审议的质量: 模型能否解出定理, 写出证明, 生成无bug的代码, 或是跑通基准测试. 而评估「代理型思维」的标准, 则是模型在与环境互动的过程中能否持续取得实质性进展.
核心问题从「模型思考的时间够长吗?」变成了「模型思考的方式足以支撑它采取有效行动吗?」代理型思维必须处理几个纯推理模型大体上可以避开的难题:
a.决定何时停止思考并采取行动
b.选择调用哪个工具以及调用的先后顺序
c.整合来自环境中嘈杂或残缺的观察结果
d.在遭遇失败后重新调整计划
e.在多轮对话和多次工具调用中保持逻辑连贯
简而言之, 具备代理型思维的模型, 必须通过行动来推理.
一旦目标从「解决基准测试题」转变为「完成互动性任务」, RL的技术栈就会发生巨变. 传统推理RL所用的基础设施已经远远不够了. 在推理RL中, 你通常可以将策略展开(rollouts)视为相对独立的轨迹, 配备清晰明确的评估器即可. 但在代理型RL中, 策略被深深嵌入到一个庞大的支撑框架(harness)内: 工具服务器, 浏览器, 终端, 搜索引擎, 模拟器, 执行沙盒, API层, 记忆系统以及编排框架. 环境不再是一个静态的裁判; 它变成了整个训练系统不可分割的一部分.
这催生了一个全新的系统级需求: 训练和推理必须更加彻底地解耦. 缺乏这种解耦, 策略展开的吞吐量就会直接崩溃. 想象一个编码代理, 它必须在一个实时的测试框架中去运行它生成的代码: 推理端会因为等待执行反馈而被迫停顿, 训练端则会因为收不到完整的轨迹数据而陷入饥饿, 整个流水线的GPU利用率将远低于传统推理RL的水平. 如果再加上工具延迟, 局部可观测性以及有状态环境等因素, 这些低效问题将被进一步放大. 结果就是, 远在你达到预期的能力指标之前, 整个实验的进度就会变得极其缓慢且痛苦.
环境本身也因此跃升为核心的研究产物. 在SFT(监督微调)时代, 我们曾对数据的多样性趋之若鹜. 而在代理时代, 我们应该死磕环境的质量: 稳定性, 真实性, 场景覆盖率, 难度阶梯, 状态多样性, 反馈丰富度, 防作弊能力, 以及策略展开生成的可扩展性. 搭建虚拟环境已经成为一个真正硬核的创业赛道, 而不再是某种副业项目. 如果代理注定要在类似生产环境的条件中接受训练, 那么环境本身就是核心能力技术栈的一部分.
我个人的预期是, 代理型思维将成为未来主导的思考形式. 我认为它最终会淘汰掉大部分老旧的「静态独白版」推理思维——即那种过度冗长, 孤立封闭, 试图靠吐出越来越多文本来掩盖缺乏互动能力的内部轨迹. 即便是面对极度困难的数学或编码任务, 一个真正先进的系统也应该拥有搜索, 模拟, 运行, 检查, 验证和修改的权利. 我们的最终目标是稳健且高效地解决现实问题.
训练此类系统最大的痛点在于「奖励作弊」(reward hacking). 一旦模型获得了实质性的工具访问权限, 奖励作弊就会变得极具破坏力. 一个接入了搜索功能的模型可能会在RL训练期间直接学会上网搜答案. 一个编码代理可能会利用代码库中未公开的未来信息, 滥用日志, 或者找到某种直接让任务失效的捷径. 一个带有隐藏漏洞的环境会让模型的策略看起来超乎常人, 但实际上只是训练出了一个作弊高手. 相比于推理时代, 代理时代的局面要微妙凶险得多. 更强大的工具让模型更有用, 但也成倍放大了虚假优化的攻击面. 我们完全可以预见, 下一个严峻的学术瓶颈将诞生于环境设计, 评估器的稳健性, 反作弊协议, 以及在策略与物理世界之间建立更具规范性的接口标准上. 尽管困难重重, 但大方向无可动摇: 有工具赋能的思考, 本质上就是比闭门造车的思考更有价值, 也更有可能带来真实的生产力飞跃.
代理型思维同时也意味着「支撑框架工程」(harness engineering)的崛起. 未来的核心智能将越来越依赖于多个代理的协同组织方式: 一个负责规划和调度任务的中央编排器, 扮演领域专家角色的专用代理, 以及负责执行垂直细分任务的子代理(它们不仅干活, 还能帮忙控制上下文, 避免记忆污染, 并维持不同思考层级之间的物理隔离). 产业的未来, 正在从训练模型走向训练代理, 并最终迈向训练庞大的系统.
结论
推理浪潮的第一阶段确立了一个铁律: 只要反馈信号足够可靠且基础设施撑得住, 在语言模型之上叠加强化学习就能催生出发生质变的认知能力.
而更深远的行业跃迁, 正在从「推理型思维」转向「代理型思维」: 即从单纯地多想一会儿, 转向为了采取行动而思考. 训练的核心标的已经转移. 它不再仅仅是模型本身, 而是「模型+环境」的共生系统, 更具体地说, 是代理及其外围的支撑框架. 这彻底颠覆了我们对「核心研究产物」的认知: 模型架构和训练数据固然重要, 但环境设计, 策略展开的基建, 评估器的抗干扰能力, 以及多代理协同的底层接口, 将被提升到同等甚至更高的地位. 它也重新定义了什么是「好的思考」: 真正的「好」, 指的是在现实世界的种种约束下, 最能有效支撑行动的思维轨迹, 而不是一味比拼谁生成的文本最长, 谁的演算过程最显眼.
这同样改变了未来商业竞争的护城河逻辑. 在推理时代, 谁有更好的RL算法, 更纯粹的反馈信号和更具扩展性的训练流水线, 谁就能赢. 而在代理时代, 杀手锏将变成谁拥有更拟真的环境, 更丝滑的「训推一体」架构, 更强悍的框架工程能力, 以及谁能最完美地在「模型的决策」与「该决策引发的真实后果」之间, 闭合那个至关重要的反馈环.