关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro51人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

撒贝宁亲妹39岁未婚引热议:颜值远超嫂子,不婚是清醒还是无奈?

娱乐白名单 浏览 280

小额包裹还是海外仓?跨境电商如何提高供应链抗风险能力

第一财经资讯 浏览 70

564亿“新城系”接班进行时:女儿香港买壳、儿子出任A股董事长!

野马财经 浏览 94

任重正式宣布与孙骁骁结婚!

广西阿妹香香 浏览 1043

河南女孩带村里46名老人游郑州 有人穿得比结婚还整齐

极目新闻 浏览 86

推广|| 你们千呼万唤的“神裤”终于返场了!

黎贝卡的异想世界 浏览 292

增程动力 可选8座 吉利银河V900申报信息公布

网易汽车 浏览 66

有种痴情叫李乃文:吻戏“交代了自己前半生”

林木体育解说 浏览 70

霍家主母显气度:一代卖船供学二代稳大局三代全颜面,四代无人及

不八卦会死星人 浏览 18

美军连扣两艘油轮 美方:都是委内瑞拉“影子舰队”

新华社 浏览 19

成都锦里古街树木倾倒砸伤游客 目击者:树木是空心的

上游新闻 浏览 41

淘宝闪购饿了么官宣八位城市骑士代言人:从骑手到骑士,我们为我们代言!

雷峰网 浏览 86

林依晨二胎喜讯背后:被造谣7年生吃青蛙的十年婚变史

Yuki女人故事 浏览 72

白宫黑手伸进委总统卧室!一场践踏国际规则的“黑夜绑架”

国是直通车 浏览 21

女主播被伪装的炸弹包裹炸伤:拿起看了一眼就爆炸了

极目新闻 浏览 56

于正否认许凯恋情称已报警,许凯承认恋情否认出轨

韩小娱 浏览 90

胜利主帅:C罗是我执教胜利的动力,球队目标是所有赛事赢得奖杯

直播吧 浏览 90

E句话| 路行退出《再见爱人》?

仙女事件簿 浏览 1000

多城土地调整规划再出让:增加居住用地占比

澎湃新闻 浏览 83

打造"一个吉利"航母 吉利汽车与极氪签订合并协议

网易汽车 浏览 91

华英、民生证券涉5起官司、5张罚单!千亿国联民生证券扛下所有?

独角金融 浏览 98
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12