关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪155人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

收视破1，全员狠人，我断言：央视这部剧，又要火向全国了

娱乐圈笔娱君浏览 20

小品类也能撬到大生意，谁成为商家的“赚钱搭子”？

陆玖商业评论浏览 88

被曲解的雷军：“安全至上”与“好看第一”并不冲突

虎嗅APP 浏览 24

5分钟连轰10分吹反击号角：字母登场限制仍功臣利拉德末节12分

颜小白的篮球梦浏览 299

“消失”已久的周立波，早走上一条“不归路”

清游说娱浏览 103

拼了！大空间+高效补能乐道L90租电版17.98万元起

网易汽车浏览 78

半年巨亏22亿，某车企公告！

电动知家浏览 75

短剧男主遇上长剧男主，谁是天然帅哥谁是滤镜美男，差距一目了然

娱乐圈笔娱君浏览 87

蔚来官宣再融资11.6亿美元！

电动知家浏览 79

46岁罗志祥近况曝光！去国外开演唱会和粉丝击掌

萌神木木浏览 66

“Polo衫+牛仔裤”今年火爆了，这样穿时髦松弛又减龄！

LinkFashion 浏览 78

“空降”印奇和50亿，阶跃星辰上桌了吗？

字母榜浏览 19

其实李亚鹏只离了两次婚！过往前任太知名，每段感情都是女方受伤

萌神木木浏览 490

委内瑞拉总统马杜罗：美军事部署行为违反国际法

国际在线浏览 86

中期改款奔驰AMG SL曝光前脸焕新依旧多种动力

汽车公告板浏览 19

克林顿夫妇作证时间确认民主党人炸锅：特朗普你等着

澎湃新闻浏览 17

三元锂和磷酸铁锂二合一？揭开零跑D19超混电池黑科技

吴佩频道浏览 54

李想评豆包手机为现象级AI产品努比亚回应：带来自动驾驶式体验升级

快科技浏览 15

或配有增程动力林肯将推全新三排SUV

乐选爱车浏览 82

速卖通正在成为更多亚马逊商家的第一阵地

华尔街见闻官方浏览 75

普京批准俄罗斯与古巴军事合作协议

上观新闻浏览 56

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

以军坦克开进...

解放军举行围...

方媛在家待产...

150-16...

百年老字号的...

记者：佛罗伦...

听到赚钱才入场，晚不晚？

你喝的奶茶上黑名单了吗？教你在家就能做的神仙饮品

伊朗袭击摩萨德总部

收视破1，全员狠人，我断言：央视这部剧，又要火向全国了

小品类也能撬到大生意，谁成为商家的“赚钱搭子”？

被曲解的雷军：“安全至上”与“好看第一”并不冲突

5分钟连轰10分吹反击号角：字母登场限制仍功臣利拉德末节12分

“消失”已久的周立波，早走上一条“不归路”

拼了！大空间+高效补能乐道L90租电版17.98万元起

半年巨亏22亿，某车企公告！

短剧男主遇上长剧男主，谁是天然帅哥谁是滤镜美男，差距一目了然

蔚来官宣再融资11.6亿美元！

46岁罗志祥近况曝光！去国外开演唱会和粉丝击掌

“Polo衫+牛仔裤”今年火爆了，这样穿时髦松弛又减龄！

“空降”印奇和50亿，阶跃星辰上桌了吗？

其实李亚鹏只离了两次婚！过往前任太知名，每段感情都是女方受伤

委内瑞拉总统马杜罗：美军事部署行为违反国际法

中期改款奔驰AMG SL曝光前脸焕新依旧多种动力

克林顿夫妇作证时间确认民主党人炸锅：特朗普你等着

三元锂和磷酸铁锂二合一？揭开零跑D19超混电池黑科技

李想评豆包手机为现象级AI产品努比亚回应：带来自动驾驶式体验升级

或配有增程动力林肯将推全新三排SUV

速卖通正在成为更多亚马逊商家的第一阵地

普京批准俄罗斯与古巴军事合作协议

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

以军坦克开进...

解放军举行围...

方媛在家待产...

150-16...

百年老字号的...

记者：佛罗伦...

听到赚钱才入场，晚不晚？

你喝的奶茶上黑名单了吗？教你在家就能做的神仙饮品

伊朗袭击摩萨德总部

收视破1，全员狠人，我断言：央视这部剧，又要火向全国了

小品类也能撬到大生意，谁成为商家的“赚钱搭子”？

被曲解的雷军：“安全至上”与“好看第一”并不冲突

5分钟连轰10分吹反击号角：字母登场限制仍功臣 利拉德末节12分

“消失”已久的周立波，早走上一条“不归路”

拼了！大空间+高效补能 乐道L90租电版17.98万元起

半年巨亏22亿，某车企公告！

短剧男主遇上长剧男主，谁是天然帅哥谁是滤镜美男，差距一目了然

蔚来官宣再融资11.6亿美元！

46岁罗志祥近况曝光！去国外开演唱会和粉丝击掌

“Polo衫+牛仔裤”今年火爆了，这样穿时髦松弛又减龄！

“空降”印奇和50亿，阶跃星辰上桌了吗？

其实李亚鹏只离了两次婚！过往前任太知名，每段感情都是女方受伤

委内瑞拉总统马杜罗：美军事部署行为违反国际法

中期改款奔驰AMG SL曝光 前脸焕新 依旧多种动力

克林顿夫妇作证时间确认 民主党人炸锅：特朗普你等着

三元锂和磷酸铁锂二合一？揭开零跑D19超混电池黑科技

李想评豆包手机为现象级AI产品 努比亚回应：带来自动驾驶式体验升级

或配有增程动力 林肯将推全新三排SUV

速卖通正在成为更多亚马逊商家的第一阵地

普京批准俄罗斯与古巴军事合作协议

5分钟连轰10分吹反击号角：字母登场限制仍功臣利拉德末节12分

拼了！大空间+高效补能乐道L90租电版17.98万元起

中期改款奔驰AMG SL曝光前脸焕新依旧多种动力

克林顿夫妇作证时间确认民主党人炸锅：特朗普你等着

李想评豆包手机为现象级AI产品努比亚回应：带来自动驾驶式体验升级

或配有增程动力林肯将推全新三排SUV