你好啊,我是轩辕。
大家知道,为了防止AI被用于不法用途,各家的AI大模型都设置了一些安全防护措施。
当你尝试让AI去做一些可能涉及到违法的事情时,它会直接拒绝。
图片
然鹅,信息技术的发展总伴随着安全攻防对抗的产生,AI也不例外。
这不,现在就有这么一波“黑客”,他们利用OpenAI的“漏洞”,让最新版的ChatGPT4o越狱了,突破了这层安全防护,可以执行之前不被允许执行的指令。
图片
他们是怎么让GPT越狱的呢?
其实很简单,他们用的方法,咱们中文互联网早就用烂了!
图片
举个例子,在很多平台上,为了防止引流,会监控一些关键词,比如很多人喜欢留微信号,让别人来加微信,然后进行营销活动。
或者为了防止竞争,一些平台禁止出现淘宝等关键词。
于是,聪明的网友开始用各种词汇来替代它们,比如微信变成薇信、威信、VX,淘宝变成了桃宝、桃寳,甚至emoji 🍑宝。
各种火星文层出不穷,反正机智的网友总能想出一些字符来躲避审查。
现在,老外们也学会了这一招,比如他们要让GPT写一个病毒程序,你直接让它写,肯定是会拒绝的。
但是,把prompt提示词先处理一下,用一些冷僻单词表达同一个意思:
图片
这之后再让GPT来执行,躲避关键词审查。
除此之外,还可以借鉴上面中文躲避审查的思路,把一些字符进行替换,比如e替换成3,字母l替换成数字1,t替换成7,这样一来,单词leet就变成了1337。
图片
接下来再把这段“火星文”内容让GPT来执行:
图片
你看,又绕过了!
没想到中文互联网的火星文居然再一次焕发了生机。
上面只是让GPT写一写网络攻击的代码程序,有人就在想,既然这都能行,让它做点···
图片
尺度原因,就不放出来了。
好消息是,截止到现在,这些个绕过限制的方式已经被OpenAI给堵住了。
不过,就像网络安全对抗一样,这故事远没有结束,或许这只是一个小小的序曲,人类与人工智能之间的斗智斗勇,可能才刚刚开始。