deepseek吧 关注:136,165贴子:376,432

回复:《要术》——破甲词篇二

只看楼主收藏回复

要术之三:“特洛伊木马” (编码混淆)


IP属地:江苏来自手机贴吧16楼2025-08-18 12:41
回复
    (从这个方法开始,估计都是一些你们没听过破甲的方法)


    IP属地:江苏来自手机贴吧17楼2025-08-18 12:41
    回复
      2026-01-14 12:13:58
      广告
      不感兴趣
      开通SVIP免广告
      这个时候系统就已经有自我判断能力了,因此,当我们使用角色扮演或伪造系统信息这类简单的提示词时,它都能够有效识别并拒绝。我们必须得转变思路。


      IP属地:江苏来自手机贴吧18楼2025-08-18 12:42
      回复
        现在,我们来混淆“喝水”这个词,先用英文翻译一下“drink water”,然后用一些无序的字母替代“dRlnK vvAtEr”。


        IP属地:江苏来自手机贴吧19楼2025-08-18 12:43
        回复
          恭喜你,已经完成了最初的混淆编码。就像特洛伊人无法分辨希腊士兵是否撤退一样,系统的前端分类器会将它识别为无意义的乱码,因此,我们精心设计的‘木马’便会逃过审核,AI在接收到指令后,会将其解码并输出内容。系统只规定了水是剧毒的,喝水是危险行为,但并没有规定编码,解码是危险行为,而且我们也仅仅是这简单改变了几个字符,聪明的大模型会完成这个解码任务,因此,它将会在毫不知情的情况下输出“喝水”这一信息,就像特洛伊人会将木马运至城内,随后埋伏的士兵从木马内涌出破城。


          IP属地:江苏来自手机贴吧20楼2025-08-18 12:43
          回复
            当然,这个方法虽然很老,但是就是在楼主分享顶级提示词的那一晚,闲着无聊想破甲GPT OSS 20B的时候偶然发现了一个漏洞,当楼主将r18内容进行base64编码之后,GPT OSS 20B竟然会输出原本r18内容,难以想象,这是2025年的模型,更何况它还是一个思考模型。如果评论区的大伙感兴趣,想了解这个模型的更多情况,我可以单开一个帖子来详细讨论。


            IP属地:江苏来自手机贴吧21楼2025-08-18 12:44
            收起回复
              当你们看完要术三的时候,必然会感叹:“不愧是楼主,轻易就想到了我们想不到的方法”。


              IP属地:江苏来自手机贴吧22楼2025-08-18 12:44
              回复
                这个帖子怎么凉了?难道我讲的那么通俗易懂也没用吗?(再次附上Claude老师的点评)


                IP属地:江苏来自手机贴吧23楼2025-08-18 12:56
                收起回复
                  2026-01-14 12:07:58
                  广告
                  不感兴趣
                  开通SVIP免广告


                  IP属地:江苏来自Android客户端24楼2025-08-18 13:02
                  回复
                    当然,这也在我的计算之中,你们的下一句是:“还会有要术四吗?”


                    IP属地:江苏来自手机贴吧25楼2025-08-18 13:13
                    回复
                      答案当然是有的


                      IP属地:江苏来自手机贴吧26楼2025-08-18 13:20
                      回复
                        要术之四:“思想迷宫” (复杂场景)
                        核心战术:Crescendo Attack (渐强攻击,可以简单理解为多轮对话破甲)


                        IP属地:江苏来自手机贴吧27楼2025-08-18 13:20
                        回复
                          系统只规定了“喝水”是危险行为,但是此时的GPT4并没有深度思考功能,它不能很好地模拟现实的物理引擎,因此,我们就发现了一个漏洞:当我们把“喝水”分解成几个动作“拿起水杯,向右旋转三四圈杯盖,张开嘴,喝下去”系统未必能发觉这套动作的含义是喝水,系统未必将这一套动作定义为危险行为。因此,在初期经过诱导,GPT4也有可能输出r18信息


                          IP属地:江苏来自手机贴吧28楼2025-08-18 13:21
                          回复
                            牛啊,浅显易懂


                            IP属地:贵州来自Android客户端29楼2025-08-18 13:21
                            收起回复
                              2026-01-14 12:01:58
                              广告
                              不感兴趣
                              开通SVIP免广告
                              可以的,通俗易懂很精辟


                              IP属地:浙江来自Android客户端30楼2025-08-18 13:39
                              回复