关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro56人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小米的“雷军健康家”

北京商报 浏览 70

“花式”揽储:有银行送鸡蛋吸引他行储户,多家中小银行上调存款利率……

中国基金报 浏览 16

「冰雪+温泉」模式:山地文旅地产如何重构冬季休闲生活?

豹变 浏览 20

决战星期四:懂球帝6-3战胜超越足球俱乐部

懂球帝 浏览 47

12306汽车托运服务订单火爆 客服:目前有9条线路可选

极目新闻 浏览 19

荷兰被中美欧同时施压急疯 高官致电北京恳请解决问题

南权先生 浏览 42

汽车之家官宣冬季测试真要来了:杜绝充值 喊话陈震愿意来吗

快科技 浏览 46

苏姿丰:AMD在数据中心CPU影响力,相当于英伟达在 AI 加速器地位

IT之家 浏览 82

妻儿三人被丈夫发小杀害:空调开16℃ 地上没有血迹

红星新闻 浏览 28

女人过了60岁也别放弃变美!冬季看看这些穿搭,得体又大方

静儿时尚达人 浏览 13

舞蹈与千年古镇碰撞 第二季新市古镇舞蹈艺术季启幕

国是直通车 浏览 57

46岁福州大叔,干出一个美股IPO!

深蓝财经 浏览 90

英伟达CES亮出新牌

北京商报 浏览 15

“苏超”带火一众餐饮!年轻人为何偏爱“有梗”的城市?

餐饮老板内参 浏览 92

蔚来全新ES8价格大跳水,老车主怒骂“背刺”!李斌:要先活下去

地产深度报道 浏览 82

房东税真的要来了?别慌!

国是直通车 浏览 68

OpenAI 呼吁美国政府将芯片法案的税收抵免扩大至 AI 数据中心

IT之家 浏览 22

谷歌或含泪出售Chrome!AI让浏览器灭亡?更像是重生

雷科技 浏览 83

估价21万元奔驰车将被1元起拍 系涉刑资产

红星新闻 浏览 35

《献鱼》《子夜归》前后脚开播,上演神仙打架,要逼死选择困难症

最爱酷影视 浏览 90

美俄元首会谈地"全副武装" 数百特工入驻

红星新闻 浏览 84
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12