关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

迈瑞联影等待复苏

猛犸资本局 浏览 25

记者:哲凯赖什本赛季预计将取代萨卡成为队内第一点球手

懂球帝 浏览 15

蔚来官宣降价

经理人杂志 浏览 11

钱天一国乒第1美女,见男友家长好事将近

二疯说球 浏览 2

DeepSeek V3.1发布,成最好非思考编程模型

AI寒武纪 浏览 17

35岁嫌老、65岁返聘、机器人不交社保,这批中年人老了怎么办?

宋鸿兵 浏览 26

梨形身材救星!这6套显瘦穿搭承包整个夏天

Yuki女人故事 浏览 17

AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼

新智元 浏览 2

泰晤士:纽卡寻中锋,对维萨、雅克松、拉森和拉莫斯感兴趣

懂球帝 浏览 18

华系智驾排位变阵,比亚迪吉利要反超了?

第一电动网 浏览 16

特朗普突发奇想 要拉普京泽连斯基回30年前乌"伤心地"

梁讯 浏览 19

马卡:吕迪格向自己扔胶带的裁判亲自道歉,对方也接受了他的道歉

直播吧 浏览 20

小白鞋输了!现在流行“仙女裙+运动鞋”,巨洋气巨显腿细!

Yuki女人故事 浏览 12

登上《新闻联播》!中国男篮获亚洲杯亚军获肯定

醉卧浮生 浏览 22

全新BMW R 1300 GS Adventure售27.39万起

网易汽车 浏览 17

搭载鸿蒙座舱 新款天籁将于第四季度上市

车质网 浏览 7

再次受伤!谷爱凌:由于人为事故发生非常可怕的意外,伤情待确认

直播吧 浏览 9

纯电续航给到200km 2026款猛龙限时售15.38万起

网易汽车 浏览 24

胡歌得肺癌在北京住院?工作室深夜发文

都市快报橙柿互动 浏览 252

中国大规模减持美债 一个月抛了超1800亿元

每日经济新闻 浏览 12

工信部征求车门把手国标意见 隐藏式设计被明确禁止

太平洋汽车 浏览 13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12
0.393697s