关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元80人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英伟达“跌倒”,寒武纪“吃饱”?

经济观察报 浏览 67

40岁童瑶与42岁蒋欣:气质对比很明显

大眼妹妹 浏览 985

美联储理事沃勒:CEO们称AI将致大量裁员,3月利率决议取决于2月劳动力数据

华尔街见闻官方 浏览 13

需求激增 流感药“新老对决”

北京商报 浏览 22

避雷手册丨开局生猛!申万菱信乐道2026年8个交易日盈利44%

一地基毛 浏览 25

一觉醒来,整个世界都在做多中国

米筐投资 浏览 80

Veritas67-62科罗拉多预科,张博源砍26分+6记三分率队取胜

懂球帝 浏览 24

美《芯片法案》或遭重挫:商务部下属芯片与AI机构据悉将裁员

科创板日报 浏览 3171

F1阿塞拜疆站:维斯塔潘杆位夺冠 皮亚斯特里撞墙退赛

网易体育 浏览 86

英特尔驱动新功能:支持分配 87% 内存给核显作显存

IT之家 浏览 111

AI算力需求疯狂,微软“新云”交易额超600亿美元

华尔街见闻官方 浏览 32

王俊杰:亚洲很多队强度甚至不如NCAA 打澳大利亚第一次有压迫感

直播吧 浏览 73

首款 800V 智能超混华系 SUV,岚图旗舰新车“泰山”预告公布

IT之家 浏览 92

男子市区骑车遭横空绳索割喉 医生几乎为他"重造"喉部

红星新闻 浏览 75

媒体:被昔日学生中国超越 欧洲落于人后的悲观正蔓延

澎湃新闻 浏览 3263

媒体:美维持全球部署至少需要12艘航母 仅剩10艘能用

环球网资讯 浏览 361

第三届鸟巢数字体验节启幕:机器人嘉年华打造未来生活新场景

环球网资讯 浏览 51

美高官:委官员已私下保证 将满足美提出的条件和要求

中国经营报 浏览 21

ESPN:若卡塞米罗接受大幅降薪,曼联不排除留下他

懂球帝 浏览 84

9系大六座旗舰SUV又添一员 智己LS9预售33.69万起

网易汽车 浏览 27

胖东来辟谣月饼礼盒设计费一千万:9款礼盒设计费用372万

中新经纬 浏览 83
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12