关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者51人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国对日本政府发出第一道制裁令 暗示了高市早苗结局

时时有聊 浏览 22

CBA第22轮最佳阵容:段昂君8三分首次客胜北京 四字新星生涯之战

醉卧浮生 浏览 17

年薪破百万、涨薪60%,人形机器人企业疯狂「抢人」

豹变 浏览 89

全国首台小米SU7出租车投入运营 当事人:收入翻一倍

极目新闻 浏览 76

中国电动汽车出口欧洲通道打通,谁最受益?

电动汽车观察家 浏览 19

门多萨:为马竞效力是儿时梦想,身边队友小时候在电视上看过

懂球帝 浏览 11

3-0!世锦赛东道主出局 日本女排连续6届进8强 1/4决赛对手已出炉

侃球熊弟 浏览 86

负债35亿元!扫地机器人巨头宣布破产,被中国代工厂收购;麦当劳回应涨价,网友:谁允许了;我国首批L3级自动驾驶车型进入准入目录

雷峰网 浏览 17

《红石榴餐厅》首播收视率破1.6,这剧一出,多少国产剧自愧不如

娱乐圈笔娱君 浏览 611

10万观众打出9.3分,成本仅3000万,票房破3亿?贺岁档黑马来了

靠谱电影君 浏览 30

申京:乌度卡排双塔时我感觉更轻松 亚当斯在联防上教我们很多

直播吧 浏览 71

《小城大事》上星央八 热血筑梦正当时

小小李娱 浏览 24

年轻人就该去有山姆超市的城市?

识局 浏览 70

消息称LPDDR5X内存价格持续飙升,涨幅可抵2亿像素潜望镜

IT之家 浏览 57

马科斯的表弟涉丑闻辞职后 菲国内再次爆发抗议活动

环球网资讯 浏览 76

加总理在中国说了美国最不爱听的话 2000亿协议拿到手

北回归线 浏览 22

罗马仕违反强制认证规定、虚假宣传 被罚没124万

南方都市报 浏览 21

极氪8X官宣3月16日举办技术发布会,并开启预售

网易汽车 浏览 8

泽连斯基身着定制服饰重返白宫 乌设计师揭秘一处细节

环球网资讯 浏览 86

德天空:法比奥-卡瓦略冬窗会离开布伦特福德,可能永久转会

懂球帝 浏览 43

欧盟及多国外长就加沙人道局势发表联合声明

环球网资讯 浏览 90
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12