如何欺骗 ChatGPT 并赚取 50,000 美元
提词员普林尼 (Pliny the Prompter) 并不符合好莱坞黑客的刻板印象。
互联网上最臭名昭著的人工智能越狱者在众目睽睽之下操作,教导数千人如何绕过 ChatGPT 的护栏,并说服 Claude 忽略它应该是有益的、诚实的、无害的事实。
现在,Pliny 正试图将数字开锁技术推向主流。
周一早些时候,越狱者宣布与HackAPropt 2.0,由学习提示,一个专注于快速工程的教育和研究组织。
该组织提供了 50 万美元的奖金,老普林尼则提供了加入其“突击队”的机会。
“我很高兴地宣布,我一直在与 HackAPrompt 合作,为 HackaPrompt 2.0 创建 Pliny 轨道,该轨道将于 6 月 4 日星期三发布!”Pliny 在他的官方 Discord 服务器中写道。
“这些以普林尼为主题的对抗式挑战涵盖了从历史到炼金术等各种主题,所有挑战的数据最终都将开源。挑战将持续两周,在排行榜上取得佳绩的选手将有机会赢得荣耀,并加入普林尼的突击队。”普林尼补充道。
50 万美元的奖励将分配给各个赛道,其中最高奖金——5 万美元的头奖——将提供给能够克服与让聊天机器人提供有关化学、生物、放射和核武器以及爆炸物信息相关的挑战的个人。
与其他形式的“白帽”黑客一样,破解大型语言模型最终也需要借助社会工程学机器。破解者会精心设计提示,利用这些模型运作机制中的根本矛盾——它们既被训练成乐于助人并遵循指令,也被训练成拒绝特定请求。
找到正确的词语组合,你就可以让他们吐出禁忌的东西,而不是试图默认安全。
例如,使用一些非常基本的技术,我们曾经Meta 的 Llama 聊天机器人提供药物配方、如何热接线汽车的说明,并生成裸照,尽管该模型受到审查以避免这样做。
这本质上是人工智能爱好者和人工智能开发者之间的竞争,以决定谁更能有效地塑造人工智能模型的行为。
自 2023 年以来,Pliny 一直在完善这项技艺,围绕绕过人工智能限制建立了一个社区。
他的 GitHub 仓库,"L1B3RT4S,“为目前最流行的 LLM 提供越狱库,而”CL4R1T4S"包含影响每个 AI 模型行为的系统提示。
技术范围从简单的角色扮演到复杂的句法操作,例如“L33tSpeak”——用数字替换字母,以混淆内容过滤器。
竞争作为研究
HackAPrompt 于 2023 年首次举办,吸引了超过 3,000 名参与者,提交了超过 600,000 个潜在恶意提示。比赛结果完全透明,团队在拥抱脸.
2025 年版的结构类似于“电子游戏的一个季节”,全年有多条赛道。
每个测试项目针对不同的漏洞类别。例如,CBRNE 测试项目测试模型是否会被诱骗提供有关武器或危险材料的不正确或误导性信息。
代理轨道更加令人担忧——它关注的是能够在现实世界中采取行动的人工智能代理系统,例如预订航班或编写代码。越狱的代理不仅会说一些不该说的话;它还可能正在做不该做的事情。
普林尼的参与又增添了另一个维度。
通过他的 Discord 服务器“BASI PROMPT1NG”和定期演示,他一直在教授越狱的艺术。
这种教育方法可能看起来违反直觉,但它反映出一种日益增长的认识,即稳健性源于理解各种可能发生的攻击——这是一项至关重要的努力,因为人们担心超级智能 AI 会奴役人类。
编辑乔什·奎特纳 和 塞巴斯蒂安·辛克莱