关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪155人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

收视破1,全员狠人,我断言:央视这部剧,又要火向全国了

娱乐圈笔娱君 浏览 20

小品类也能撬到大生意,谁成为商家的“赚钱搭子”?

陆玖商业评论 浏览 88

被曲解的雷军:“安全至上”与“好看第一”并不冲突

虎嗅APP 浏览 24

5分钟连轰10分吹反击号角:字母登场限制仍功臣 利拉德末节12分

颜小白的篮球梦 浏览 299

“消失”已久的周立波,早走上一条“不归路”

清游说娱 浏览 103

拼了!大空间+高效补能 乐道L90租电版17.98万元起

网易汽车 浏览 78

半年巨亏22亿,某车企公告!

电动知家 浏览 75

短剧男主遇上长剧男主,谁是天然帅哥谁是滤镜美男,差距一目了然

娱乐圈笔娱君 浏览 87

蔚来官宣再融资11.6亿美元!

电动知家 浏览 79

46岁罗志祥近况曝光!去国外开演唱会和粉丝击掌

萌神木木 浏览 66

“Polo衫+牛仔裤”今年火爆了,这样穿时髦松弛又减龄!

LinkFashion 浏览 78

“空降”印奇和50亿,阶跃星辰上桌了吗?

字母榜 浏览 19

其实李亚鹏只离了两次婚!过往前任太知名,每段感情都是女方受伤

萌神木木 浏览 490

委内瑞拉总统马杜罗:美军事部署行为违反国际法

国际在线 浏览 86

中期改款奔驰AMG SL曝光 前脸焕新 依旧多种动力

汽车公告板 浏览 19

克林顿夫妇作证时间确认 民主党人炸锅:特朗普你等着

澎湃新闻 浏览 17

三元锂和磷酸铁锂二合一?揭开零跑D19超混电池黑科技

吴佩频道 浏览 54

李想评豆包手机为现象级AI产品 努比亚回应:带来自动驾驶式体验升级

快科技 浏览 15

或配有增程动力 林肯将推全新三排SUV

乐选爱车 浏览 82

速卖通正在成为更多亚马逊商家的第一阵地

华尔街见闻官方 浏览 75

普京批准俄罗斯与古巴军事合作协议

上观新闻 浏览 56
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12