关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者28人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

连券商首席都被妈妈“科普”,商业航天太火了

财通社 浏览 19

张本智和惨遭逆转!痛失4个赛点+连丢3局,无缘法国冠军赛男单8强

乒谈 浏览 44

物业费,全国大跳水

快刀财经 浏览 67

输深圳采访!杨鸣满意表现,苦恼调整空间不大,谈下场给小将机会

篮球资讯达人 浏览 17

限制赎回风波后,当红PE Blue Owl为数据中心专项基金募资17亿美元

华尔街见闻官方 浏览 23

“麂皮包”越来越流行,秋冬怎么搭都好看

LinkFashion 浏览 28

中国生育率第一城!天门出生率反转,释放了什么信号?

北向财经 浏览 71

媒体:放弃全球霸权 背叛美国的美国已不再自信

南风窗 浏览 18

甲骨文与谷歌云扩大合作,向客户提供 Gemini AI 模型服务

IT之家 浏览 83

给《东极岛》演员演技排个名,倪妮仅排第4,第1名难以超越

娱乐圈笔娱君 浏览 90

21点中国U17女足战南美黑马!打平即世界杯出线 16强赛遇3大强队

我爱英超 浏览 36

曼联官宣利马伤情,恐缺席两周战水晶宫存疑!曝红魔欲签热刺铁卫

罗米的曼联博客 浏览 9

75岁谭咏麟街头买金鱼!与老板老友式寒暄

丁睋解说 浏览 17

菜可以预制,信任不可以预支

时尚COSMO 浏览 67

泰禾集团:董事长黄其森因涉嫌违法被辽宁省新民市监察委员会实施留置措施

网易财经 浏览 73

高市早苗斗不过中国邀6国反华 马克龙拆台打退堂鼓

基斯默默 浏览 14

50+女性秋日别瞎打扮,这3招让你告别油腻感,优雅好气质

静儿时尚达人 浏览 40

新华社权威快报|中国第42次南极考察队从上海起航

新华社 浏览 42

香港浸会大学推出AlphaApollo:AI实现协同推理突破

科技行者 浏览 35

澳专家:我害怕的是对中国的无知

环球时报国际 浏览 89

SpaceX称识别并切断缅甸电诈园区周边逾2500台“星链”设备

澎湃新闻 浏览 49
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12