米兰app2026世界杯中国官网 ICML 2026|智能体的下半场: 为什么「答对」如故不够了?

你的位置：米兰app2026世界杯中国官网 > 米兰首页 >

米兰首页

发布日期：2026-05-25 01:38 点击次数：135

米兰app2026世界杯中国官网 ICML 2026|智能体的下半场: 为什么「答对」如故不够了?

昔时两年 Agent 研究更像一场工程竞赛 —— 谁的推理链更长、谁的器具箱更大、谁的 workflow 更复杂。但 Agent 的下半场不再是拼花活，而是把它形成一门科学：不仅问「它 work 不 work？」，更要问「它为什么work」，以及什么时候才应该这样作念？」

这篇著述作家团队想聊聊在 ICML 2026 提议的Theory of Agent (ToA)—— 以及它如何诠释当下最前沿的长高下文、推理模子、器具使用、自进化智能体背后那根共同的干线。

对于这项服务

Theory of Agent (ToA) 是由爱丁堡大学聚拢普林斯顿大学、UIUC、西北大学、香港华文大学共同提议的智能体融合表面，已被 ICML 2026 以 Position Paper 的局势接纳。

名目地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/

作家团队障翳了刻下 Agent / LLM 研究的多条干线 —— 从 ReAct 式推理与器具使用，到 RL 对皆、宇宙模子、科学发现智能体 —— 这份服务也正是这些干线齐集后的一次尝试：把 Agent 从一套工程手段，形成一门不错被推理、被证伪、被累积的科学。

一个你服气见过的场景：两份雷同满分的试卷

遐想吞并套试鬈发到两个学外行里。

同学 A 走的是闭卷磨真金不怕火模式。整套题他靠我方：回忆学问点、作念推理、验算，必要时在脑子里从头组织一遍 —— 他把磨真金不怕火当成陶冶基础和念念维的契机；

同学 B 走的是开卷磨真金不怕火模式。每一谈题他都上网查、问 ChatGPT、翻参考谜底，径直抄过来就交。

两份卷子点窜下来，都是 100 分。赤诚要是只看分数，这两个东谈主是一样的。但只消你当过赤诚，或者我方读过书，你就知谈这两个东谈主一学期之后的差距会相当大：

同学 A : 哪怕中间作念错过、绕弯过，每作念一题，他那根叫「解题直观」的东西都在被加粗一次。期末的时候，雷同一谈题他能更快、更稳地作念对，况且能举一反三。

同学 B : 他也作念了一学期题，但他脑子里的学问存量莫得任何变化。到了必须闭卷的那一次磨真金不怕火 —— 或者任何一次莫得 ChatGPT 可用的风物 —— 他会倏得发现我方什么都不会。

两份满分，两条气运皆备违反的成长弧线。

先涌现一个常见诬陷: 这个故事里毫不是说「同学 A 不会用搜索引擎」或者「用器具是赖事」。正巧违反 —— A 也不错、也应该在需要的时候用器具 (磨真金不怕火是譬如，真实宇宙里的 Agent 诚然会遭遇靠我方无论如何答不出来的题，这时候必须调用外部信息)。

信得过的要津是：能靠我方答对的题，就毋庸为了省事而默许抄谜底。器具该在「靠我方不够」的时候上场，而不是在「根柢还没试过」的时候就被默许触发。至于「什么叫靠我方不够」「什么叫信得过必需」，正是背面要花篇幅讲涌现的事 —— 作家会把它精准成一个叫学问范畴（knowledge boundary) 的东西。>

换到 Agent 身上，这两类活动皆备平行：

图 1. 雷同正确的谜底，背后可能是两种迥乎不同的资源分拨。Agent A 什么都默许靠外部器具，里面推忠良商被绕开、无法镇定；Agent B 在里面能惩处时就里面惩处 —— 但并不扼杀在信得过需要时使用器具 —— 推忠良商在老到中被强化。

这不是一个设计问题。这是一个界说问题：什么叫一个「好」Agent? 要是「好」只意味着「答对」，那开卷同学和闭卷同学没区别。但要是「好」还意味着「越作念越灵巧」，咱们想要的昭彰是后者。而这恰正是现在绝大无数 Agent 素质范式看不见的东西。

当下智能体的四种失败模式，其实是吞并个病

昔时两年，Agent 系统暴清爽了许多互相看似无关的问题。有些模子在还没信得过理辞退务时就急于活动，束缚切换念念路；有些则在简便问题上堕入冗长推理，以至为「2+3 等于几」生成十几条重迭 reasoning path。另一类问题则发生在与外部宇宙的交互上：模子要么迟迟不肯调用本该使用的器具，要么把本来几步就能完成的操作拆成漫长而重迭的轨迹。

这些现象时时被分别归类为 reasoning、planning 或 tool-use 的问题，因此业界也民俗于逐一修补：过度推理就增多长度刑事服务，器具浪费就拘谨 action budget，活动不及就强化器具调用智商。

但要是把这些现象放在吞并个视角下，会发现它们其实分享着吞并个更底层的结构：Agent 持久在濒临一个络续存在的决策 —— 下一步究竟应该赓续依赖里面念念考，如故转向外部宇宙获得信息。

不同的失败模式，内容上仅仅这个决策在不同方进取的失衡。答早了是 underthinking，答晚了是 overthinking，问少了是 underacting，问多了是 overacting。不是四个零丁的问题，而是吞并个病 —— 在不细目性下的决策错配 —— 以四个标的施展出来。

下半场的服务，不是赓续打补丁，而是治这个病。

换一个视角：推理和活动，是一体两面

要是顺着这个问题赓续往下推，一个更当然的不雅察会出现：所谓「推理」和「活动」，无意是两种内容不同的阶段。对于 Agent 来说，它们更像是在不同位置获得信息的两种形状。链式念念考、反念念和任务解析，内容上是在从头组织模子如故领有的信息；而搜索、API 调用、代码奉行等活动，则是在向外部宇宙索求模子刻下并不具备的信息。

推理和活动，是两种用来镌汰吞并种不细目性 (epistemic uncertainty，知道不细目性) 的器具。它们的离别只在于信息起头。

里面知道器具 (链式念念考、反念念、解析)：把 Agent 如故有的信息从头组织一遍；

外部物理器具(搜索、API、UI 操作、奉行代码)：注入 Agent 莫得的信息。

两者都在镌汰不细目性，只不外一个发生在里面，一个发生在外部，这样智能体的活动轨迹就形成了：

图 2. 左：传统 ReAct 把推理和活动混在沿途当作念两个阶段。右：ToA 把 Agent 作为一个融合的政策，它在两类器具里作念遴荐 —— 里面知道器具查的是「我方这个宇宙模子」，外部物理器具查的是「真实宇宙」。

脚下，哪种器具能最快镌汰我对这个任务的不细目性？

这亦然为什么长高下文、RAG、器具使用、agentic RL 其实都在指向吞并件事，沿着「里面如故外部」这一根轴的不同分拨。

每个 Agent 都有我方的「会作念题」范围

一朝推理和活动平起平坐，研究的中枢对象就不再是「政策」，而是：这个 Agent 靠我方能惩处的任务，和需要外部匡助才略惩处的任务，范畴在那处？

ToA 把这件事精准化了:

图 3. 左：一个 Agent 的「学问范畴」把它能里面惩处的任务和剩下的宇宙任务离隔。中：多个 Agent 都能里面惩处的部分 ——「最小任务集」。右：这群 Agent 中任意一个能里面惩处的并集 ——「最大任务集」。

最中枢的一条：脑力奇迹的「总量守恒」

而这个总额和政策无关。咱们不错把勤恳从里面挪到外部，也不错反过来，2026世界杯预选赛下单中国体彩官网但总量是定的。雷同于咱们刚运行举的阿谁例子，学生 A 和学生 B 便是在使用不同的分拨政策去惩处吞并套试卷。

从这个角度再看器具使用，会发现一个容易被忽略的事实：外部器具并不会信得过扼杀任务自身的信息职守。它们仅仅把本来需要由模子里面完成的知道经由，诊疗到了外部系统上。一个复杂问题之是以变得「容易」，好多时候不是因为问题自身被简化了，而是因为求解经由被从头分拨了。

用生涯譬如：你要作念一谈红烧肉。

咱们不错全靠我方的时刻：选肉、焯水、糖色、火候一手拿持。这是里面勤恳拉满。

咱们也不错点一份半制品，回家热一下，或者径直点外卖。这是外部勤恳拉满。

咱们还不错用预制菜 + 我方炖十分钟，均衡一下。

Agent 活动的几何：不同点的含义以及最优活动

既然「知道勤恳」是一个在两个维度间分拨的固定预算，那 Agent 的活动就活在一个二维平面上，如下图所示。

图 4. 横轴是里面推理插足，纵轴是外部活动插足。斜线是最小勤恳前沿 βE_{int}+E_{ext}=E^*。左：任务在里面可解，两种勤恳不错解放互换；右：任务超出里面智商，外部勤恳存在一个不可削减的底线。*

图上标了三个要津点:

点 A 的「全能性」恰正是它的危急。一朝有一个足够颖异的外部 Agent 可调用，A 不管任务在范畴的哪一侧都能走通。这便是为什么只奖励正确性的素质会当然漂移到左上方的 A 点隔邻 —— 它是通往奖励最释怀、最低风险的旅途。

用实习生的例子类比：小 A 永恒都能「对」。雇主只消看谜底，他没错。但一年下来，他莫得学会任何一谈题的内在逻辑 —— 因为他莫得给我方「尝试用大脑」的契机。点 A 便是阿谁「永恒搜一下就行」的坑。

等等，那 AC 和 AB 之间呢？

这是一个精巧但相当病笃的点。A、B、C 不是仅有的三个「正确谜底」。

那它们之间有什么区别？——区别不是「优不优」，而是「偏好不同」。

对里面可解的任务 (线段AC)，表里勤恳不错解摒弃换:

延迟明锐的部署，也许更偏 A (一次外部调用快、干脆);

安全明锐、或外部调用很贵的部署，更偏 C (不要松驰触发试验宇宙的动作);

老本中性的部署，选个中间点就好。

对外部必需的任务 (线段AB)，外部勤恳的底线不成砍，米兰app2026世界杯中国官网但在这条底线之上，雷同存在一个偏好谱:

换句话说，前沿是一整条帕累托最优弧线， A、B、C 仅仅三个代表性的端点。不同的业务场景 —— 安全、延迟、老本、合规 —— 沿着这条弧线遴荐不同的位置，都是对的。

那条斜线的斜率 β，到底在说什么？

β 的大小决定了那条斜线的倾角，也就决定了「帕累托最优前沿」的局势:

β 很大(想很贵、调低廉)：斜线陡，最优点举座偏向多调外部。直观：既然我这颗大脑腾贵又慢，那能外包就外包。这诠释了为什么「小模子 + 强器具链」时常是感性遴荐 —— 对一个 Llama-3-8B，让它我方写一堆 CoT 不如径直 RAG 出来给它看。

β 很小(调很贵、想低廉)：斜线缓，最优点举座偏向多靠里面。直观：每次触碰试验宇宙都要用钱 / 承担风险，那就能在脑子里惩处的就别起始。这诠释了为什么推理模子 (o1/R1 那一代)把赌注押在「里面 scaling」上 —— 在它们的老本结构下，多推几步比调一次器具低廉得多。

这就把 ToA 和资源有限感性(resource-bounded rationality) 接上了：莫得放之四海皆准的「最好 Agent 活动」，只好「在刻下 β 下最好的活动」。一条产线上的 Agent 换个部署环境， β 变了，最优的分拨政策就应该随着变。是以 ToA 的「对皆」不是「让 Agent 学会一种固定姿势」，而是让 Agent 学会识别 β ，并沿着 β 对应的那条前沿去分拨勤恳。

那 ToA 反对的是什么？是 Agent「稀里蒙眬地漂到 A」—— 不是因为 β 让 A 是最优解，而是因为只奖励正确性的素质让 A 形成了最省事的惯性遴荐。吞并个 A，被 β 论证过的 A 和被惯性带过来的 A ，在几何上无法折柳，但在 Agent 的持久发展上天地之别。对皆意味着特意志地选前沿上的某少量，而不是在素质惯性下默许滑到旯旮。

捷径的代价：Agent 也会被「惯坏」

ToA 里有一个命题叫 Prop 3.9: 交付指示的智商停滞—— 翻译成大口语：

要是 Agent 系统性地把本不错里面惩处的任务也外包出去，它的里面推忠良商不会因为训戒齐集而变强，哪怕它在旨趣上本不错变强。

这是 Agent 版的「小 A 问题」：他一直在外部器具扶植下答对，从未给我方「我方想想看」的契机，是以他的里面智商足履实地。看起来今天很能打，十年后如故这个水平。

这其实亦然咱们不雅察好多东谈主类实习生、以至学生的律例 ——有捷径可行运，大脑就不会再去走长路。而大脑从长路走回归的那部分，才是「长本领」的那部分。Agent 的 RL 素质要是只看正确率，就会被这个最可靠的捷径劝诱昔时，皆备复制雷同的陷坑。

是以近期那些加「器具使用刑事服务」的设施过后看，内容上都在贴近 ToA 说的 effort-consistent alignment：既要答对，也要克制。

下半场的素质：四条路同期走，不可偏废

把上头总共内容落到素质，约莫是四条互补的旅途。每一条单独走都不够，它们各自立迫「只求正确」这个病的一个侧面。

1.Agentic Post-training：Next-Tool Prediction

预素质的 next-token 把静态学问压进了参数，但它从没造就 Agent 若何通过交互去获得新学问。咱们观点把预素质延迟到 next-tool prediction—— 把交互轨迹自身 (API 调用、UI 动作、环境查询) 形成一等建模缠绵，和文本并排。学会「在给定高下文下，下一个该用哪个器具」，就不仅仅「会推理」，而是会决定如何镌汰不细目性。这是一个新的 scaling 维度：不是储存更多学问，而是通过交互获得学问。

2. Agentic SFT：按智约定制的监督

法度 SFT 假定「好的器具使用」有融正当式，在吞并套示范上喂总共模子。ToA 说这个假定不开垦：对小模子适合的器具使用，对大模子可能皆备是鼓胀—— 反过来也一样。一刀切的监督会让模子系统性地偏向示范者的里面任务集，而不是它我方的。

皇冠体育(CrownSports)官网

两条路：(1) 按智约定制数据集—— 每个模子有我方的 Q_{int}，这个干净但贵；(2)遴荐性乞助—— 素质 Agent 只在低 solvability 的高下文下主动外求，近似一个保守的智商上包 Q_{max}，更通用但精度调和。

3.Agentic RL：经由，而不仅仅限度

前边说过，只奖励正确性势必漂向点 A—— 因为交付是「最恰当得奖」的政策。有用的 agentic RL 必须奖励「若何答对」，不仅仅「答对」。OTC-PO 是一个具体例子：它明确刑事服务毋庸要的器具调用，把「克制」和「正确」同等对待。更广义地，RL 允许 Agent 学经由级偏好—— 什么时候想、什么时候作念、什么时候停 —— 这是只看限度的监督抒发不出来的。

团队还遐想一个迭代范式 RL → SFT → RL：RL 在不细目性下发现对皆轨迹；SFT 把它们压缩成雄厚的、可泛化的政策；第二轮 RL 在这个基础上再作念一次元知道校准。预素质阶段带 RL (算力充足时) 是另一个有出路的标的。

4.Agentic Prompting：有用，但不够用

Prompt-based 设施 (ReAct 式脚手架、操心、workflow 轮廓) 不错不动参数就引出复杂器具使用活动，对快速迭代相当有用。但它们欠缺对决策质料的系统性评估—— 过度念念考和过度活动不错藏在「限度对」底下，根柢不会被检出。Prompting 是一个很好的「活动探针」，但它不是 SFT 和 RL 在参数层面带来的那种校准的替代品。

一条共同的干线

四条路的共同点是：莳植 Agent 不是让它推理更多或器具更少，而是让它能揣摸我方的里面可解度，并据此分拨勤恳。后素质教「器具词汇表」；SFT 锚定「和我方智商匹配的基线」；RL 校准「经由级偏好」；prompting 把活动暴清爽来好会诊。「对皆」不是一个固定的缠绵，而是雅致校准的决策经由的涌现属性。那四种失败模式 (overthinking、overacting、under-delegation、over-delegation)——都是吞并个底层误校准的不同切片。

下半场会吵什么？三个还没惩处的问题

将来几年 Agent 研究会围绕底下三个问题反复拉扯 —— 它们都是 ToA 通达的、但没议论上的:

若何测量 Q_int (m，W)？里面任务集是潜变量，只可揣摸。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分谜底。一个好的里面可解度代理，会坐窝成为 alignment 素质的中枢零件。

若何训出信得过尊重「勤恳守恒」的政策？只看限度的 RL 作念不到，因为这个不变量对它不可见。给器具使用加刑事服务是第一步；更内容的有缠绵 —— 特意志地均衡表里轨迹的课程，然后用 RL 保管这个均衡 —— 如故开放问题。

若何评估 Agent 的「勤恳分拨」，而不是只评估「答对率」? 当下的 benchmark 只说「答对了没」，这刚好错过要点。咱们需要能折柳「靠推理对」和「靠外包对」的 benchmark。莫得这样的评估，就没宗旨判断一个 Agent 到底「变灵巧了」，如故「学会了更熟练地外包」。

一些有爱慕的护士

长高下文 vs. RAG，谁更好？

昔时一年，前沿实验室在荒诞卷高下文长度 ——Gemini 的百万 token、Claude 的长推理、GPT-4 的器具链。同期 RAG 派相持说「检索才是正谈」。

在 ToA 下，双方其简直作念吞并件事，仅仅形状不同 :

长高下文 = 提前扩展里面 : 先把外部信息一股脑灌进来，再让 Agent 纯里面推理 —— 十分于把任务从 Qext 推回 Qint。

RAG = 按需外求 : 信息留在外面，需要的时候再去取。

论文里的表轻易论断是：在正确性交流的前提下，长高下文时时是更好的分拨—— 因为它把 Agent 推向纯里面推理，而纯里面推理正是让智商「千里淀进参数」的阿谁素质信号。是以长高下文不仅仅居品体验，它自身便是智商内化的底座。

诚然 RAG 不会隐藏。信息及时变化、鸿沟太大、或者超出模子解析智商时，检索便是 epistemically 方正的遴荐。要津是，「用哪种」，自身就该是一个基于知道恶果的决策，不是缺省。

内化和外化：一根一直在动的范畴

这可能是 ToA 最实用的一个词汇孝敬。一个 Agent 不错拆成两部分:

模子 (Model)：提供参数里的学问、里面推忠良商 —— 也便是 Qint 的基础。

脚手架 (Harness)：提供器具、操心、检索、高下文管制、外部契约 —— 也便是通向 Qworld∖Qint 的接口。

这个拆分不是固定的。它在两个违反的经由里被络续重塑:

内化 (Internalization)：把脚手架提供的智商，接管进模子自身。算术、结构化查找、某些局势的检索、代码作风的变换 —— 都是典型的「也曾外部，其后搬到参数里去了」的智商。一朝内化到手，一度需要外部器具的任务就滑进了 QintQint——学问范畴向外推了一格。ToA 对内化到手给出两个要求：(1) 智商自身要可压缩(有结构，能被参数拿获)；(2) 素质经由必须至少在某些时候奖励「里面惩处」—— 不然梯度信号隐藏，内化永恒不会发生。

外化 (Externalization)：反标的。把智商卸给脚手架 —— 有时候很合理 (及时数据、考证器、具身动作)，有时候仅仅为了偷懒。按默许外化的问题恰好便是 Prop 3.9: 不是因为智商内容上在外，而是因为刻下模子在这里作念得不好，于是永恒让它作念不好。学问范畴被冻结在了早期素质气象。

下半场的中枢设计问题，不是「模子要多大」，也不是「脚手架要多丰富」，而是：若何让这根范畴朝着更高自主性的标的络续移动，同期不被「只求正确」的素质惯性拖且归？

自进化智能体

一个智能体不错被称为「自进化的」，当且仅当它的里面任务集随时代严格膨胀：

但这个膨胀「够不够」，取决于它所处的阿谁宇宙自身是不是也在动。

也便是说 —— 最终，这个宇宙里一切能被惩处的任务，都能由它我方里面惩处。

动态宇宙：这是一个「速度」问题。但真实宇宙从来不是静态的。W_t 会随着时代束缚冒出新任务 —— 新器具、新接口、新领域、新问题无独有偶。这时候，自进化就不再是「能不成追上」，而是能不成追得够快。它形成了一个严格的速度要求:

收尾：Agent 不是「答对的机器」，是「越用越灵巧的东西」

要是把 Agent 作为一种络续在「里面念念考」和「外部活动」之间分拨知道资源的系统，那么昔时好多看似割裂的问题 —— 从 tool overuse 到 reasoning collapse，从 long-context scaling 到 lifelong learning—— 或者都不错放回吞并条干线上从头领略。

ToA 并不是这条阶梯的颠倒，更像是一个运行：它尝试把 Agent 从一套束缚堆叠手段的工程系统米兰app2026世界杯中国官网，从头形成一个不错被分析、被诠释、也能够被持久齐集的科学对象。

上一篇：米兰app2026世界杯中国官网证监会重罚富途老虎;好意思债收益率创19年新高丨一周热门追想

下一篇：米兰app2026世界杯IOS/Android通用手机版下载告传说奇! 罗伯逊告别战第83分钟被换下, 认真收敛9年利物浦糊口