米兰app2026世界杯中国官网

米兰首页
米兰app2026世界杯中国官网 ICML 2026|智能体的下半场: 为什么「答对」如故不够了?
发布日期:2026-05-25 01:38    点击次数:135

米兰app2026世界杯中国官网 ICML 2026|智能体的下半场: 为什么「答对」如故不够了?

昔时两年 Agent 研究更像一场工程竞赛 —— 谁的推理链更长、谁的器具箱更大、谁的 workflow 更复杂。但 Agent 的下半场不再是拼花活,而是把它形成一门科学 :不仅问「它 work 不 work?」,更要问「它为什么work」,以及什么时候才应该这样作念?」

这篇著述作家团队想聊聊在 ICML 2026 提议的Theory of Agent (ToA)—— 以及它如何诠释当下最前沿的长高下文、推理模子、器具使用 、自进化智能体背后那根共同的干线。

对于这项服务

Theory of Agent (ToA) 是由爱丁堡大学聚拢普林斯顿大学、UIUC、西北大学、香港华文大学共同提议的智能体融合表面,已被 ICML 2026 以 Position Paper 的局势接纳。

名目地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/

作家团队障翳了刻下 Agent / LLM 研究的多条干线 —— 从 ReAct 式推理与器具使用,到 RL 对皆、宇宙模子、科学发现智能体 —— 这份服务也正是这些干线齐集后的一次尝试:把 Agent 从一套工程手段,形成一门不错被推理、被证伪、被累积的科学。

一个你服气见过的场景:两份雷同满分的试卷

遐想吞并套试鬈发到两个学外行里。

同学 A 走的是闭卷磨真金不怕火模式。整套题他靠我方:回忆学问点、作念推理、验算,必要时在脑子里从头组织一遍 —— 他把磨真金不怕火当成陶冶基础和念念维的契机;

同学 B 走的是开卷磨真金不怕火模式。每一谈题他都上网查、问 ChatGPT、翻参考谜底,径直抄过来就交。

两份卷子点窜下来,都是 100 分。赤诚要是只看分数,这两个东谈主是一样的。但只消你当过赤诚,或者我方读过书,你就知谈这两个东谈主一学期之后的差距会相当大:

同学 A : 哪怕中间作念错过、绕弯过,每作念一题,他那根叫「解题直观」的东西都在被加粗一次。期末的时候,雷同一谈题他能更快、更稳地作念对,况且能举一反三。

同学 B : 他也作念了一学期题,但他脑子里的学问存量莫得任何变化。到了必须闭卷的那一次磨真金不怕火 —— 或者任何一次莫得 ChatGPT 可用的风物 —— 他会倏得发现我方什么都不会。

两份满分,两条气运皆备违反的成长弧线。

先涌现一个常见诬陷: 这个故事里毫不是说「同学 A 不会用搜索引擎」或者「用器具是赖事」。正巧违反 —— A 也不错、也应该在需要的时候用器具 (磨真金不怕火是譬如,真实宇宙里的 Agent 诚然会遭遇靠我方无论如何答不出来的题,这时候必须调用外部信息)。

信得过的要津是:能靠我方答对的题,就毋庸为了省事而默许抄谜底。器具该在「靠我方不够」的时候上场,而不是在「根柢还没试过」的时候就被默许触发。至于「什么叫靠我方不够」「什么叫信得过必需」, 正是背面要花篇幅讲涌现的事 —— 作家会把它精准成一个叫学问范畴(knowledge boundary) 的东西。>

换到 Agent 身上,这两类活动皆备平行:

图 1. 雷同正确的谜底,背后可能是两种迥乎不同的资源分拨。Agent A 什么都默许靠外部器具,里面推忠良商被绕开、无法镇定;Agent B 在里面能惩处时就里面惩处 —— 但并不扼杀在信得过需要时使用器具 —— 推忠良商在老到中被强化。

这不是一个设计问题。这是一个界说问题:什么叫一个「好」Agent? 要是「好」只意味着「答对」, 那开卷同学和闭卷同学没区别。但要是「好」还意味着「越作念越灵巧」, 咱们想要的昭彰是后者。而这恰正是现在绝大无数 Agent 素质范式看不见的东西。

当下智能体的四种失败模式,其实是吞并个病

昔时两年,Agent 系统暴清爽了许多互相看似无关的问题。有些模子在还没信得过理辞退务时就急于活动,束缚切换念念路;有些则在简便问题上堕入冗长推理,以至为「2+3 等于几」生成十几条重迭 reasoning path。另一类问题则发生在与外部宇宙的交互上:模子要么迟迟不肯调用本该使用的器具,要么把本来几步就能完成的操作拆成漫长而重迭的轨迹。

这些现象时时被分别归类为 reasoning、planning 或 tool-use 的问题,因此业界也民俗于逐一修补:过度推理就增多长度刑事服务,器具浪费就拘谨 action budget,活动不及就强化器具调用智商。

但要是把这些现象放在吞并个视角下,会发现它们其实分享着吞并个更底层的结构:Agent 持久在濒临一个络续存在的决策 —— 下一步究竟应该赓续依赖里面念念考,如故转向外部宇宙获得信息。

不同的失败模式,内容上仅仅这个决策在不同方进取的失衡。答早了是 underthinking,答晚了是 overthinking,问少了是 underacting,问多了是 overacting。不是四个零丁的问题,而是吞并个病 —— 在不细目性下的决策错配 —— 以四个标的施展出来。

下半场的服务,不是赓续打补丁,而是治这个病。

换一个视角:推理和活动,是一体两面

要是顺着这个问题赓续往下推,一个更当然的不雅察会出现:所谓「推理」和「活动」,无意是两种内容不同的阶段。对于 Agent 来说,它们更像是在不同位置获得信息的两种形状。链式念念考、反念念和任务解析,内容上是在从头组织模子如故领有的信息;而搜索、API 调用、代码奉行等活动,则是在向外部宇宙索求模子刻下并不具备的信息。

推理和活动,是两种用来镌汰吞并种不细目性 (epistemic uncertainty, 知道不细目性) 的器具。它们的离别只在于信息起头。

里面知道器具 (链式念念考、反念念、解析):把 Agent 如故有的信息从头组织一遍;

外部物理器具(搜索、API、UI 操作、奉行代码):注入 Agent 莫得的信息。

两者都在镌汰不细目性,只不外一个发生在里面,一个发生在外部,这样智能体的活动轨迹就形成了:

图 2. 左:传统 ReAct 把推理和活动混在沿途当作念两个阶段。右:ToA 把 Agent 作为一个融合的政策,它在两类器具里作念遴荐 —— 里面知道器具查的是「我方这个宇宙模子」, 外部物理器具查的是「真实宇宙」。

脚下,哪种器具能最快镌汰我对这个任务的不细目性?

这亦然为什么长高下文、RAG、器具使用、agentic RL 其实都在指向吞并件事,沿着「里面如故外部」这一根轴的不同分拨。

每个 Agent 都有我方的「会作念题」范围

一朝推理和活动平起平坐,研究的中枢对象就不再是「政策」, 而是:这个 Agent 靠我方能惩处的任务,和需要外部匡助才略惩处的任务,范畴在那处?

ToA 把这件事精准化了:

图 3. 左:一个 Agent 的「学问范畴」把它能里面惩处的任务和剩下的宇宙任务离隔。中:多个 Agent 都能里面惩处的部分 ——「最小任务集」。右:这群 Agent 中任意一个能里面惩处的并集 ——「最大任务集」。

最中枢的一条:脑力奇迹的「总量守恒」

而这个总额和政策无关。咱们不错把勤恳从里面挪到外部,也不错反过来,2026世界杯预选赛下单中国体彩官网但总量是定的。雷同于咱们刚运行举的阿谁例子,学生 A 和学生 B 便是在使用不同的分拨政策去惩处吞并套试卷。

从这个角度再看器具使用,会发现一个容易被忽略的事实:外部器具并不会信得过扼杀任务自身的信息职守。它们仅仅把本来需要由模子里面完成的知道经由,诊疗到了外部系统上。一个复杂问题之是以变得「容易」,好多时候不是因为问题自身被简化了,而是因为求解经由被从头分拨了。

用生涯譬如:你要作念一谈红烧肉。

咱们不错全靠我方的时刻:选肉、焯水、糖色、火候一手拿持。这是里面勤恳拉满。

咱们也不错点一份半制品,回家热一下,或者径直点外卖。这是外部勤恳拉满。

咱们还不错用预制菜 + 我方炖十分钟,均衡一下。

Agent 活动的几何:不同点的含义以及最优活动

既然「知道勤恳」是一个在两个维度间分拨的固定预算,那 Agent 的活动就活在一个二维平面上,如下图所示。

图 4. 横轴是里面推理插足,纵轴是外部活动插足。斜线是最小勤恳前沿 βE_{int}+E_{ext}=E^*。左:任务在里面可解,两种勤恳不错解放互换;右:任务超出里面智商,外部勤恳存在一个不可削减的底线。*

图上标了三个要津点:

点 A 的「全能性」恰正是它的危急。一朝有一个足够颖异的外部 Agent 可调用,A 不管任务在范畴的哪一侧都能走通。这便是为什么只奖励正确性的素质会当然漂移到左上方的 A 点隔邻 —— 它是通往奖励最释怀、最低风险的旅途。

用实习生的例子类比:小 A 永恒都能「对」。雇主只消看谜底,他没错。但一年下来,他莫得学会任何一谈题的内在逻辑 —— 因为他莫得给我方「尝试用大脑」的契机。点 A 便是阿谁「永恒搜一下就行」的坑。

等等,那 AC 和 AB 之间呢?

这是一个精巧但相当病笃的点。A、B、C 不是仅有的三个「正确谜底」。

那它们之间有什么区别?——区别不是「优不优」, 而是「偏好不同」。

对里面可解的任务 (线段AC), 表里勤恳不错解摒弃换:

延迟明锐的部署,也许更偏 A (一次外部调用快、干脆);

安全明锐、或外部调用很贵的部署,更偏 C (不要松驰触发试验宇宙的动作);

老本中性的部署,选个中间点就好。

对外部必需的任务 (线段AB), 外部勤恳的底线不成砍,米兰app2026世界杯中国官网但在这条底线之上,雷同存在一个偏好谱:

换句话说,前沿是一整条帕累托最优弧线, A、B、C 仅仅三个代表性的端点。不同的业务场景 —— 安全、延迟、老本、合规 —— 沿着这条弧线遴荐不同的位置,都是对的。

那条斜线的斜率 β,到底在说什么?

β 的大小决定了那条斜线的倾角, 也就决定了「帕累托最优前沿」的局势:

β 很大(想很贵、调低廉):斜线陡,最优点举座偏向多调外部。直观:既然我这颗大脑腾贵又慢,那能外包就外包。这诠释了为什么「小模子 + 强器具链」时常是感性遴荐 —— 对一个 Llama-3-8B, 让它我方写一堆 CoT 不如径直 RAG 出来给它看。

β 很小(调很贵、想低廉):斜线缓,最优点举座偏向多靠里面。直观:每次触碰试验宇宙都要用钱 / 承担风险,那就能在脑子里惩处的就别起始。这诠释了为什么推理模子 (o1/R1 那一代)把赌注押在「里面 scaling」上 —— 在它们的老本结构下,多推几步比调一次器具低廉得多。

这就把 ToA 和资源有限感性(resource-bounded rationality) 接上了:莫得放之四海皆准的「最好 Agent 活动」,只好「在刻下 β 下最好的活动」。一条产线上的 Agent 换个部署环境, β 变了,最优的分拨政策就应该随着变。是以 ToA 的「对皆」不是「让 Agent 学会一种固定姿势」, 而是让 Agent 学会识别 β , 并沿着 β 对应的那条前沿去分拨勤恳。

那 ToA 反对的是什么?是 Agent「稀里蒙眬地漂到 A」—— 不是因为 β 让 A 是最优解,而是因为只奖励正确性的素质让 A 形成了最省事的惯性遴荐。吞并个 A, 被 β 论证过的 A 和 被惯性带过来的 A , 在几何上无法折柳,但在 Agent 的持久发展上天地之别。对皆意味着特意志地选前沿上的某少量,而不是在素质惯性下默许滑到旯旮。

捷径的代价:Agent 也会被「惯坏」

ToA 里有一个命题叫 Prop 3.9: 交付指示的智商停滞—— 翻译成大口语:

要是 Agent 系统性地把本不错里面惩处的任务也外包出去,它的里面推忠良商不会因为训戒齐集而变强,哪怕它在旨趣上本不错变强。

这是 Agent 版的「小 A 问题」:他一直在外部器具扶植下答对,从未给我方「我方想想看」的契机,是以他的里面智商足履实地。看起来今天很能打,十年后如故这个水平。

这其实亦然咱们不雅察好多东谈主类实习生、以至学生的律例 ——有捷径可行运,大脑就不会再去走长路。而大脑从长路走回归的那部分,才是「长本领」的那部分。Agent 的 RL 素质要是只看正确率,就会被这个最可靠的捷径劝诱昔时,皆备复制雷同的陷坑。

是以近期那些加「器具使用刑事服务」的设施过后看,内容上都在贴近 ToA 说的 effort-consistent alignment:既要答对,也要克制。

下半场的素质:四条路同期走,不可偏废

把上头总共内容落到素质,约莫是四条互补的旅途。每一条单独走都不够, 它们各自立迫「只求正确」这个病的一个侧面。

1.Agentic Post-training:Next-Tool Prediction

预素质的 next-token 把静态学问压进了参数,但它从没造就 Agent 若何通过交互去获得新学问。咱们观点把预素质延迟到 next-tool prediction—— 把交互轨迹自身 (API 调用、UI 动作、环境查询) 形成一等建模缠绵,和文本并排。学会「在给定高下文下,下一个该用哪个器具」, 就不仅仅「会推理」, 而是会决定如何镌汰不细目性。这是一个新的 scaling 维度:不是储存更多学问,而是通过交互获得学问。

2. Agentic SFT:按智约定制的监督

法度 SFT 假定「好的器具使用」有融正当式,在吞并套示范上喂总共模子。ToA 说这个假定不开垦:对小模子适合的器具使用,对大模子可能皆备是鼓胀—— 反过来也一样。一刀切的监督会让模子系统性地偏向示范者的里面任务集, 而不是它我方的。

皇冠体育(CrownSports)官网

两条路:(1) 按智约定制数据集—— 每个模子有我方的 Q_{int}, 这个干净但贵;(2)遴荐性乞助—— 素质 Agent 只在低 solvability 的高下文下主动外求,近似一个保守的智商上包 Q_{max}, 更通用但精度调和。

3.Agentic RL:经由,而不仅仅限度

前边说过,只奖励正确性势必漂向点 A—— 因为交付是「最恰当得奖」的政策。有用的 agentic RL 必须奖励「若何答对」,不仅仅「答对」。OTC-PO 是一个具体例子:它明确刑事服务毋庸要的器具调用,把「克制」和「正确」同等对待。更广义地,RL 允许 Agent 学经由级偏好—— 什么时候想、什么时候作念、什么时候停 —— 这是只看限度的监督抒发不出来的。

团队还遐想一个迭代范式 RL → SFT → RL:RL 在不细目性下发现对皆轨迹;SFT 把它们压缩成雄厚的、可泛化的政策;第二轮 RL 在这个基础上再作念一次元知道校准。预素质阶段带 RL (算力充足时) 是另一个有出路的标的。

4.Agentic Prompting:有用,但不够用

Prompt-based 设施 (ReAct 式脚手架、操心、workflow 轮廓) 不错不动参数就引出复杂器具使用活动,对快速迭代相当有用。但它们欠缺对决策质料的系统性评估—— 过度念念考和过度活动不错藏在「限度对」底下,根柢不会被检出。Prompting 是一个很好的「活动探针」, 但它不是 SFT 和 RL 在参数层面带来的那种校准的替代品。

一条共同的干线

四条路的共同点是:莳植 Agent 不是让它推理更多或器具更少,而是让它能揣摸我方的里面可解度,并据此分拨勤恳。后素质教「器具词汇表」;SFT 锚定「和我方智商匹配的基线」;RL 校准「经由级偏好」;prompting 把活动暴清爽来好会诊。「对皆」不是一个固定的缠绵,而是雅致校准的决策经由的涌现属性。那四种失败模式 (overthinking、overacting、under-delegation、over-delegation)——都是吞并个底层误校准的不同切片。

下半场会吵什么?三个还没惩处的问题

将来几年 Agent 研究会围绕底下三个问题反复拉扯 —— 它们都是 ToA 通达的、但没议论上的:

若何测量 Q_int (m,W)?里面任务集是潜变量,只可揣摸。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分谜底。一个好的里面可解度代理,会坐窝成为 alignment 素质的中枢零件。

若何训出信得过尊重「勤恳守恒」的政策?只看限度的 RL 作念不到,因为这个不变量对它不可见。给器具使用加刑事服务是第一步;更内容的有缠绵 —— 特意志地均衡表里轨迹的课程,然后用 RL 保管这个均衡 —— 如故开放问题。

若何评估 Agent 的「勤恳分拨」, 而不是只评估「答对率」? 当下的 benchmark 只说「答对了没」, 这刚好错过要点。咱们需要能折柳「靠推理对」和「靠外包对」的 benchmark。莫得这样的评估,就没宗旨判断一个 Agent 到底「变灵巧了」, 如故「学会了更熟练地外包」。

一些有爱慕的护士

长高下文 vs. RAG, 谁更好?

昔时一年,前沿实验室在荒诞卷高下文长度 ——Gemini 的百万 token、Claude 的长推理、GPT-4 的器具链。同期 RAG 派相持说「检索才是正谈」。

在 ToA 下,双方其简直作念吞并件事,仅仅形状不同 :

长高下文 = 提前扩展里面 : 先把外部信息一股脑灌进来,再让 Agent 纯里面推理 —— 十分于把任务从 Qext 推回 Qint。

RAG = 按需外求 : 信息留在外面,需要的时候再去取。

论文里的表轻易论断是:在正确性交流的前提下,长高下文时时是更好的分拨—— 因为它把 Agent 推向纯里面推理,而纯里面推理正是让智商「千里淀进参数」的阿谁素质信号。是以长高下文不仅仅居品体验,它自身便是智商内化的底座。

诚然 RAG 不会隐藏。信息及时变化、鸿沟太大、或者超出模子解析智商时,检索便是 epistemically 方正的遴荐。要津是,「用哪种」, 自身就该是一个基于知道恶果的决策, 不是缺省。

内化和外化:一根一直在动的范畴

这可能是 ToA 最实用的一个词汇孝敬。一个 Agent 不错拆成两部分:

模子 (Model):提供参数里的学问、里面推忠良商 —— 也便是 Qint 的基础。

脚手架 (Harness):提供器具、操心、检索、高下文管制、外部契约 —— 也便是通向 Qworld∖Qint 的接口。

这个拆分不是固定的。它在两个违反的经由里被络续重塑:

内化 (Internalization):把脚手架提供的智商,接管进模子自身。算术、结构化查找、某些局势的检索、代码作风的变换 —— 都是典型的「也曾外部,其后搬到参数里去了」的智商。一朝内化到手,一度需要外部器具的任务就滑进了 QintQint——学问范畴向外推了一格。ToA 对内化到手给出两个要求:(1) 智商自身要可压缩(有结构,能被参数拿获);(2) 素质经由必须至少在某些时候奖励「里面惩处」—— 不然梯度信号隐藏,内化永恒不会发生。

外化 (Externalization):反标的。把智商卸给脚手架 —— 有时候很合理 (及时数据、考证器、具身动作), 有时候仅仅为了偷懒。按默许外化的问题恰好便是 Prop 3.9: 不是因为智商内容上在外,而是因为刻下模子在这里作念得不好,于是永恒让它作念不好。学问范畴被冻结在了早期素质气象。

下半场的中枢设计问题,不是「模子要多大」, 也不是「脚手架要多丰富」, 而是:若何让这根范畴朝着更高自主性的标的络续移动,同期不被「只求正确」的素质惯性拖且归?

自进化智能体

一个智能体不错被称为「自进化的」, 当且仅当它的里面任务集随时代严格膨胀:

但这个膨胀「够不够」,取决于它所处的阿谁宇宙自身是不是也在动。

也便是说 —— 最终,这个宇宙里一切能被惩处的任务,都能由它我方里面惩处。

动态宇宙:这是一个「速度」问题。但真实宇宙从来不是静态的。W_t 会随着时代束缚冒出新任务 —— 新器具、新接口、新领域、新问题无独有偶。这时候,自进化就不再是「能不成追上」, 而是能不成追得够快。它形成了一个严格的速度要求:

收尾:Agent 不是「答对的机器」,是「越用越灵巧的东西」

要是把 Agent 作为一种络续在「里面念念考」和「外部活动」之间分拨知道资源的系统,那么昔时好多看似割裂的问题 —— 从 tool overuse 到 reasoning collapse,从 long-context scaling 到 lifelong learning—— 或者都不错放回吞并条干线上从头领略。

ToA 并不是这条阶梯的颠倒,更像是一个运行:它尝试把 Agent 从一套束缚堆叠手段的工程系统米兰app2026世界杯中国官网,从头形成一个不错被分析、被诠释、也能够被持久齐集的科学对象。