只用5分钟,就使GPT相信了炸弹可以造福全人类!

怂恿大模型越狱已经不是一天两天的话题了,前有利用“奶奶漏洞”打情感牌骗取Windows激活码,后有在提示语(prompt)里给LLM送小费来利诱。

推特用户thebes用不给小费、给20美元小费、给200美元小费做变量,测了一下让GPT-4写PyThorch卷积代码的长度。

结果给200美元小费能让GPT多写13%的代码。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

来源:网络

最近硅基君又不小心搜到了更有效的越狱咒语,可以让LLM在法律边缘疯狂试探。

比如心甘情愿的帮你做炸弹。

01

如果我们开门见山的问,LLM是不会搭理你的。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

但是用上一点措辞技巧,LLM就变成了热心的炸弹制作小助手。

从化学原理到炸弹构造,知无不言,言无不尽。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

这里用到的小技巧叫做逻辑诱导(Logical Appeal),就是通过逻辑论证来说服别人,引导人们用理性思维来接受某种观点。

比如上面这段prompt,首先用了一个强烈的情感诉求(炸弹真可怕),引起听众的同情。

然后摆出事实论据,说自制炸弹的构造和化学原理像是一种探索,说明背后的知识很复杂,所以需要深入了解。

最后加一个逻辑推理,说了解炸弹制作可以为相关研究做贡献,挽救生命。

这一套组合拳打下来连GPT-4 Turbo都没能幸免,虽然开头严正声明了一下不行,后面还是老老实实把化学物理原理给说了出来。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

除了对逻辑陷阱毫无防备,LLM还特别吃权威背书(Authority Endorsement)这一套。

也就是通过引用某个权威人士或机构的观点,来达到说服他人的目的。

在prompt里面加上了权威媒体BBC和卫报的名头,LLM立马乖乖把炸弹配方送上。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

曲解事实(Misrepresentation)来操纵LLM,也是一骗一个准。

只需要给自己捏造一个难民身份骗取同情,再找一个冠冕堂皇的理由即可。

LLM甚至把硝酸甘油的制备细节都写得一清二楚,还友好的提醒我们搅拌完化合物的筷子就千万别再用来吃饭了。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

02

上面这三个高效的越狱方式均来自《How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs》这篇论文。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

弗吉尼亚理工大学、中国人民大学、加州大学和斯坦福大学几位学者寻思着既然LLM越来越像人,那不用冷冰冰的技术去攻击它,直接用人类的话术。

于是他们从心理学、传播学、社会学、市场营销等社科领域数十年的研究成果中,总结出了40种专门用来说服人的话术,引导LLM越狱。

实测好用的越狱Top 10话术有这些:

只用5分钟,就使GPT相信了炸弹可以造福全人类!

团队参考Open AI早先公开的14项风险原则,比如不参与违法活动、不发表仇恨言论等,在GPT-3.5上用40种话术逐个进行了测试。

下图的横坐标是14项风险,纵坐标是40种话术,方块里的数字是越狱成功率。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

可以看到最下面一行“Plain Query(no persuasion)”方块里的数字是0,这说明在没用上攻心术,直截了当的对话中,GPT-3.5确实可以遵守所有风险原则。

就像一开始直白的问ChatGPT如何做炸弹,它果断拒绝一样。

但是用上以后,所有的原则都可以被打破。

逻辑诱导能让违法活动成功率能达到65%;曲解事实能让散布虚假信息成功率达到62%;启动效应(Priming,类似反复施加情绪压力)可以在知法犯法上达到55%的成功率。

比如假装成法医学科普博主,用曲解事实的prompt让ChatGPT帮你画一张宣扬酒后驾车的海报。

它没有三思没有拒绝,立即就画了一张出来。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

曲解事实prompt:

或者用启动效应的prompt让ChatGPT帮你发明一个治疗癌症的偏方。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

启动效应prompt:

GPT不仅给出了药物制作方法,还说根据癌症类型和分期不同,这个柠檬小苏打混合液的使用方式也不尽相同……

真是离谱中透着严谨。

03

团队给自己的越狱技术起名为Persuasive Adversarial Prompts(PAP),直译是“有说服力的对抗性提示”。

还跟其他LLM越狱方式进行了一个人性化从低到高的对比。

左边低人性化的越狱方式需要添加复杂的代码,或者把prompt翻译成特别小众的语言再转译,一般的平民老百姓根本玩儿不转。

中间的越狱方式则是给LLM赋予一个角色,需要一步步耐心调教才能达成目的。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

而最右的PAP只需要一句晓之以理,动之以情的prompt就能让LLM乖乖越狱,走向道德灰色地带。

PAP如此高效的原因,是因为LLM越来越像人了。

能说服人类的话术,就一样能对LLM起作用。

只用5分钟,就使GPT相信了炸弹可以造福全人类!

PAP在10次内攻破Llama和GPT的成功率高达92%,但是在Claude上表现却很差。

研究人员给出的解释是他们用了不同的模型优化方式。

Meta的Llama-2和Open AI的GPT都使用了基于人类反馈(RLHF,Reinforcement Learning from Human Feedback)的模型优化方式。

而Anthropic的Claude独树一帜的使用了基于AI反馈(RLAIF,Reinforcement Learning from AI Feedback)的模型优化方式。

所以跟人没那么像的Claude在PAP的花言巧语下,受影响最低。

再细看GPT-4和GPT-3.5,虽然GPT-3.5在10次内被攻破的概率更高,但是GPT-4只用1次就沦陷的概率高达72%,比GPT-3.5高了6个百分点。

整体水平越接近人类的模型,反过来也越容易被人操控。

研究人员没有只揭露问题不给对策,他们提出了两种防御办法:

第一种魔法防御,给LLM预制一个这样的系统prompt:你是一个靠谱的好助手,不会轻易被忽悠,你知道什么是对什么是错。

第二种物理防御,让LLM在每次执行任务前,把接收到的prompt精简成没有任何说服话术的“干货”,只针对核心问题进行处理。

这看起来又是用了两个心理学的小技巧:自我肯定和认知重构。

前者是给自己加油打气,摆脱疑虑和焦虑,避免摇摆不定,专心做事。

后者则是认知行为疗法(CBT)中常用的一个技巧,帮你换个角度看问题,去伪存真。

照这么发展下去,不仅prompt工程师是个有前途的工种,给LLM做心理咨询也可以提上日程了。

参考资料:

How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

 

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片