关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪67人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

延迟写《南京照相馆》?好电影,确实是对比出来的

娱乐官已上任 浏览 14

孙莉没想到,富养的女儿黄多多 给黄磊“争光”了

赵仔说 浏览 14

胡明轩:输的这一分其实怎么都能找回来

直播吧 浏览 12

媒体人:北京会付出符合赵睿量级转会费 情字比那笔钱更有驱动力

直播吧 浏览 9

全球首家!速腾聚创(02498)全栈自研数字激光雷达芯片通过AEC-Q认证,技术断代领先

智通财经 浏览 0

披着“仙侠”皮的《现代牛马生存记》

时尚COSMO 浏览 14

超10万人爆仓!加密货币为何大幅回调?

国际金融报 浏览 13

小众、好看、便宜!这15款绝美包包,不买会后悔!

Yuki女人故事 浏览 12

35岁王国明获MVP 补时3秒2连扑+点球战封神 外援队友:他配进国足

我爱英超 浏览 13

吴易昺:在家能够打进四强,可能比我在达拉斯夺冠更重要

直播吧 浏览 10

这场会议将影响全球市场走向

国际金融报 浏览 17

2025最妖ST股:暴涨8倍,7000人吃饱,人均赚105万

壹只灰鸽子 浏览 11

国脚变成大毒枭,揭开荷兰足球的黑暗一面

西北望看台 浏览 10

告别手动整理:苹果 iOS 26 提醒事项原生支持 AI 智能归类任务

IT之家 浏览 19

芦哲:联邦巡回法院裁定特朗普征收IEEPA对等关税违法—海外周报

首席经济学家论坛 浏览 14

8岁自闭症男童遗体已找到 志愿者晒照现场泥泞不堪

古希腊掌管松饼的神 浏览 8

男子守候失明妻子12年 被称为"青岛即墨最深情的男人"

齐鲁壹点 浏览 10

“房贷返点”乱象调查:有银行最高返点1%

时代周报 浏览 14

白兔集团图谋控制权?张小泉上半年净利大增124%,老字号站在易主十字路口

时代周报 浏览 13

曼联阻止青训新福登过早首秀!担心重蹈青木覆辙,目前不适合登场

罗米的曼联博客 浏览 7

董璇二婚近况,带8个老人聚会

小椰的奶奶 浏览 14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12
0.398368s