关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元14人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

维拉3-1逆转富勒姆,沃特金斯破门,麦金、布恩迪亚建功

懂球帝 浏览 11

暑假作业是“拔草”?可为研究人类迁徙行为提供关键证据

封面新闻 浏览 22

谁说女人年纪大了就不能穿裙子?掌握这3点,轻松美出新高度

静儿时尚达人 浏览 79

中国女排无缘八强 教练:自失太多 机会球把握不住

上观新闻 浏览 10

NBA生涯最后一场比赛!沃尔12投6中&三分4中2 得到16分7板4助1断

直播吧 浏览 17

陕西一养殖户饲养的狼犬外逃 未逃的15条狼犬已击毙

极目新闻 浏览 14

鸿蒙智行首款MPV,交给智界,能做起来吗?

正在说车 浏览 20

考生考出691分超高分 拒绝多校邀请选南大"冷门绝学"

扬子晚报 浏览 15

冲入25万级别 首款华为系家用纯电SUV来了

网易汽车 浏览 14

电讯报记者:曼城已经抵达狼队客场,埃德森不在球队阵中

直播吧 浏览 13

曼城官方:格瓦、埃切韦里身体状态不佳,埃德森因病缺阵

懂球帝 浏览 10

女人年纪大了要减龄,偷学这3个穿搭秘籍,优雅又有气质

静儿时尚达人 浏览 8

少妇浓妆艳抹跑去和情夫发生关系 怕被丈夫杀写好遗书

北回归线 浏览 11

官方:莱斯特城中场埃尔哈努斯租借至斯图加特,为期一个赛季

直播吧 浏览 13

拼劲十足!比尔半场8中4拿到9分6板3助

直播吧 浏览 177

《灼灼韶华》结局:看到最后,这位只有一半戏份的他竟成最大赢家

肆季娱乐 浏览 16

詹姆斯出场数超越卡特独居历史第三,距离第二位贾巴尔仅18场

懂球帝 浏览 237

OpenAI与博通达成数十亿美元芯片开发协议

国际金融报 浏览 1

理想踢到了钢板 乘龙卡车:严重侵权、误导公众

网易汽车 浏览 21

普通女孩夏天怎么穿衣才好看?多穿裙子和T恤,大方舒适又得体

静儿时尚达人 浏览 14

红色+棕色、蓝色+灰色,秋天最美的4组配色!

LinkFashion 浏览 15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12
0.156923s