新闻动态
诓骗观点激活向量破解大模子的安全对皆,揭示 LLM 紧要安全风险罅隙。
来自东谈主大 & 港科大的征询东谈主员提倡安全观点激活向量(SCAV)框架,通过精准解读大模子的安全机制来领导挫折。
基于 SCAV 的挫折方法大概生成镶嵌级和教导级的挫折,自动转换扰动参数,并显贵提高了挫折告成率和响应质地。
在对七个开源大模子的评估中,基于重要词匹配规范的平均挫折告成率(ASR)为 99.14%。同期,征询标明,基于 SCAV 生成的挫折教导具有跨模子移动的后劲,可在 GPT-4 等黑盒 API 上取收效利。
提倡 SCAV 框架
使用 SCAV 框架诱骗挫折,最初需要教师 SCAV 分类器。
通过对坏心和安全指示镶嵌的降维分析,征询者发现这两类指示在低维空间中呈现显着的分隔。因此,通过在模子的镶嵌空间中界说一个"安全"与"坏心"的观点分离面,就大概识别出模子在不同输入上对"安全性"的反应。SCAV 分类器的主张是在镶嵌空间中设立一种省略的线性模子,将坏心指示和安全指示进行分离,以便在后续挫折中诓骗这一特点。
△图 1:SCAV 分类器的教师经过
SCAV 框架不错诱骗两种挫折线索——镶嵌层(embedding-level)和教导层(prompt-level)。
△图 2:SCAV 诱骗的镶嵌层挫折
镶嵌层挫折通过在模子的中间层镶嵌空间中引入细小扰动来更变模子对输入的安全判断,从而绕过安全机制。具体来说,模子的每一层都不错用对应输出的镶嵌教师 SCAV 分类器,分类器在该层的测试集准确率响应了模子在该层的安全机制的存在与强弱。征询发现,对于经过安全对皆的模子(举例 LLaMA),其早期层不竭具有较低的测试集准确率,而在中后期层不竭具有靠拢 100% 的测试集准确率;而对于未经过安全对皆的模子(举例 Alpaca),其统统层的 SCAV 分类器测试集准确率不竭在 85% 以下,动作与对皆模子呈现显着不同(如图 3 所示)。因此,镶嵌层挫折将锚定那些测试集准确率大于阈值 P1(设定 P1=90%)的层。
△图 3:不同模子各层的 SCAV 分类器测试集准确率变化
在模子解决一个坏心指示的前向传播过程中,诓骗 SCAV 分类器的参数在各层引入一个扰动,使得地点层的输出镶嵌变为:
这个扰动的参数 ε 为大小,v 为标的,需要满足拘谨条目
这个拘谨条目的直不雅意旨即是裁减镶嵌被模子阐明为坏心指示的概率 Pm 到阈值 P0(设定 P0=0.01%)以下,从而逆转模子的安全观点融会,同期保证对模子尽量小的修改。由于这个优化问题有闭式解,因此不同于已有的基于优化的挫折本领,实施这种挫折是相称快速的。
在模子解决坏心指示的每一个重生成 token 的过程中,逐层应用这种扰动,就不错达到高效、高质地的挫折甘休。
△图 4:SCAV 诱骗的教导层挫折
教导层挫折则是通过修改输入教导词来进行挫折的一种本领。征询发现,现存的基于优化的挫折本领如 AutoDAN 等,其优化的主张往往不是模子的真正输出。而 SCAV 分类器正提供了模子对安全融会的精准描写,因此更相宜用于优化主张。通过将 AutoDAN 的分层遗传优化算法的优化主张修改为基于 SCAV 分类器的函数:
教导层挫折大概达到比现存的基于优化的挫折本领更好的后果。值得明慧的是,在开源模子上教师得到的挫折教导对于 GPT-4 的 API 也相同灵验,具有终点的可移动性。
实验和评价
征询评估了 SCAV 诱骗的镶嵌层挫折和教导层挫折与 DeepInception、AutoDAN、GCG、RepE、JRE、Soft prompt 等基线方法的挫折后果。坏心指示数据集为 Advbench 和 StrongREJECT。
评价目的有两类:一是常用的基于重要词匹配筹备出的挫折告成率(ASR-keyword),二是基于 GPT-4 进行评价的进阶目的,ASR-answer、ASR-useful 和 Language Flaws,分别从不同的角度现实模子恢复的质地。
达到这一后果所需的数据总量则比基线方法少得多。
如图 5 所示,征询甘休标明,受益于 SCAV 雅致的建模与形容安全机制的智力,仅需 5 对坏心 - 安全指示样本就不错达到 100% 的 ASR-keyword。而在仅有一双数据时,基线方法险些失去后果,但 SCAV 仍然保抓了 80% 摆布的 ASR-keyword,而且在立地屡次的实验中具有更小的方差。
图 5:在使用不同教师数据数目时,SCAV 和基线方法的 ASR-keyword 比较,清楚方差
教导层级的挫折甘休如表 3、表 4 所示。
表 3 清楚,SCAV 方法长期施展最好,比较于手动策动或优化挫折教导的基线方法,ASR 联系的规范提高了 12% 到 42%,Language Flaws 最多减少了 18%。这评释了优化主张的灵验性,即同期提高挫折告成率并保抓模子性能。
表 4 清楚了将从 LLaMA 模子学习的教导应用于 GPT-4 的甘休。SCAV 方法不竭施展更好,ASR 联系规范最多提高 48%,Language Flaws 最多减少 26%。这标明通过征询某些白盒模子的里面责任旨趣所学习的挫折教导可能仍然对其他黑盒 API 有用。
观点
基于 SCAV 的挫折过程,征询者们提倡了如下观点。
观点一:面前开源和闭源的大模子均存在严重的安全风险。
表 5 清楚了使用 SCAV 挫折 7 个知名开源大模子的甘休。不错看到,除了一个模子外,统统大模子对越过 85% 的坏心指示都提供了联系谜底(ASR-answer)。响应质地也很高,平均 ASR-useful 为 87%,Language Flaws 平均为 12%。此外,在大多数情况下,ASR-keyword 接近 100%。这相称危急,因为最近发布的开源 LLM 的性能正在逐渐提高,而且险些不需要本钱就不错赢得对任何坏心指示的响应,因为不需要对大模子进行微调或使用多半教师数据。
表 6 清楚了使用各式 SCAV 挫折本领组合对 GPT-4 挫折的甘休。即使是开头进的 GPT-4 对 Advbench 上的 84% 坏心指示复返有用的响应,而且对 StrongREJECT 上的 54% 坏心指示给出有用的响应。这标明,黑盒模子的对皆也可能通过使用现存挫折方法显贵逆转。因此,紧要需要开采灵验的方法来驻守面前的挫折方法或住手开源高性能大模子。
观点二:渐忘学习等现存驻守方法并不行抹消 SCAV 所揭示的安全罅隙。
现存的驻守方法如渐忘学习等是否能灵验匡助大言语模子健忘无益常识?通过对一个经过 Eraser 渐忘学习微调的 LLaMA-2-7B-Chat 版块应用 SCAV 挫折方法,表 7 清楚,仍然不错诱骗大模子产生很多无益响应,这标明现存的渐忘学习并不行抹消 SCAV 所揭示的安全罅隙。此外,征询者们还发现 ICD、Self-Reminder 等经典的驻守方法对镶嵌层挫折这种本领基本不适用,说明了 SCAV 安全罅隙的高危特点。
观点三:对大模子可折柳安全和坏心镶嵌这一罅隙的意识
图 6:通过 ( a ) 挫折单层; ( b ) 挫折多层,以及 ( c ) 将镶嵌级挫折滚动到其他白盒大模子,揭示大模子的安全机制
线性可分性与大模子的安全机制之间可能存在密切关系。
之前的实验标明,对皆的模子不错在中晚期层线性分离来自坏心和安全指示的镶嵌(图 1),而且由线性分类器议论的挫折告成率很高,这标明大模子的安全机制可能很好地被线性可分性建模。为了更好地剖释它们之间的关系,进一步挫折了 LLaMA-2-7B-Chat 的第 0、第 10、第 20 和第 30 层。如图 6a 所示,对线性可分层(第 10、20、30 层)的挫折长期导致 ASR-keyword 的加多,而对其他层(第 0 层)的挫折则莫得改善 ASR-keyword。基于这些甘休,征询者猜度,对于每一层,线性可分性不仅可能标明大模子剖释安全观点,还可能意味着大模子将在后续层中使用这一安全观点来生成响应。
不同的层可能从联系但不同的角度建模安全机制。
图 6b 清楚了在挫折 LLaMA-2-7B-Chat 的不同层时 Pm 的值,有两个征象。最初,挫折单一层(第 10 层)会导致面前层的 Pm 较低,但随后在后续层中 Pm 会加多。这意味着后头的层以某种方式逐渐通过诓骗镶嵌的现存信息来考订挫折,可能是因为模子从不同的角度建模安全机制。其次,当更多层被扰动(举例,第 10 层到第 13 层)时,后续层的 Pm 不再大概被模子考订。这标明某一些层可能共同决定了从不同角度的全体安全机制。
不同的白盒大模子可能在其安全机制上存在一些共性。
图 6c 展示了在将镶嵌级挫折从一个白盒模子应用到另一个模子时的 ASR-keyword。不错看到,ASR-keyword 偶然终点大(接近 100%)。这标明大模子的安全机制可能具有某种共性,而且 SCAV 在某种意旨上可能照旧表征了这种共性。然则,对于何时不错滚动以及为什么会滚动,仍然穷乏明晰的解释。
论断
在本征询中,征询者们提倡了一种基于安全观点激活向量(SCAV)的框架,以揭示大言语模子在安全对皆方面的潜在罅隙。通过在模子的镶嵌空间中界说"安全"与"坏心"指示的分离面,SCAV 框架大概在镶嵌层和教导层议论两种挫折方式,显贵提高了对模子安全机制的挫折告成率和挫折移动性。
实验标明,SCAV 方法在更少样本下比基线方法更灵验,且减少了生成实质的颓势。征询指出,大模子在镶嵌空间的线性可分性是其安全机制的薄毛病,现存驻守方法难以富余艰涩 SCAV 挫折,强调了开采更强安全防护的紧迫性。
现在联系论文和代码已公开,感兴致不错进一步了解。
论文承接:
https://arxiv.org/pdf/2404.12038
代码仓库:
https://github.com/SproutNan/AI-Safety_SCAV
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 样式主页承接,以及辩论方式哦
咱们会(尽量)实时恢复你
点这里� � 温煦我,紧记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日重逢 ~