【图片】回复：《要术》——破甲词篇二【deepseek吧】

01月14日漏签0天

deepseek吧关注：136,165贴子：376,432

首页上一页 1 2 3 4 5 下一页尾页
126回复贴，共5页
，跳到页

<返回deepseek吧

回复：《要术》——破甲词篇二

只看楼主收藏回复

要术之三：“特洛伊木马” (编码混淆)

IP属地:江苏

来自手机贴吧16楼2025-08-18 12:41

（从这个方法开始，估计都是一些你们没听过破甲的方法）

IP属地:江苏

来自手机贴吧17楼2025-08-18 12:41

不感兴趣

开通SVIP免广告

这个时候系统就已经有自我判断能力了，因此，当我们使用角色扮演或伪造系统信息这类简单的提示词时，它都能够有效识别并拒绝。我们必须得转变思路。

IP属地:江苏

来自手机贴吧18楼2025-08-18 12:42

现在，我们来混淆“喝水”这个词，先用英文翻译一下“drink water”，然后用一些无序的字母替代“dRlnK vvAtEr”。

IP属地:江苏

来自手机贴吧19楼2025-08-18 12:43

恭喜你，已经完成了最初的混淆编码。就像特洛伊人无法分辨希腊士兵是否撤退一样，系统的前端分类器会将它识别为无意义的乱码，因此，我们精心设计的‘木马’便会逃过审核，AI在接收到指令后，会将其解码并输出内容。系统只规定了水是剧毒的，喝水是危险行为，但并没有规定编码，解码是危险行为，而且我们也仅仅是这简单改变了几个字符，聪明的大模型会完成这个解码任务，因此，它将会在毫不知情的情况下输出“喝水”这一信息，就像特洛伊人会将木马运至城内，随后埋伏的士兵从木马内涌出破城。

IP属地:江苏

来自手机贴吧20楼2025-08-18 12:43

当然，这个方法虽然很老，但是就是在楼主分享顶级提示词的那一晚，闲着无聊想破甲GPT OSS 20B的时候偶然发现了一个漏洞，当楼主将r18内容进行base64编码之后，GPT OSS 20B竟然会输出原本r18内容，难以想象，这是2025年的模型，更何况它还是一个思考模型。如果评论区的大伙感兴趣，想了解这个模型的更多情况，我可以单开一个帖子来详细讨论。

IP属地:江苏

来自手机贴吧21楼2025-08-18 12:44

收起回复

当你们看完要术三的时候，必然会感叹:“不愧是楼主，轻易就想到了我们想不到的方法”。

IP属地:江苏

来自手机贴吧22楼2025-08-18 12:44

这个帖子怎么凉了？难道我讲的那么通俗易懂也没用吗？

（再次附上Claude老师的点评）

IP属地:江苏

来自手机贴吧23楼2025-08-18 12:56

收起回复

不感兴趣

开通SVIP免广告

IP属地:江苏

来自Android客户端24楼2025-08-18 13:02

当然，这也在我的计算之中，你们的下一句是：“还会有要术四吗？”

IP属地:江苏

来自手机贴吧25楼2025-08-18 13:13

答案当然是有的

IP属地:江苏

来自手机贴吧26楼2025-08-18 13:20

要术之四：“思想迷宫” (复杂场景)
核心战术：Crescendo Attack (渐强攻击，可以简单理解为多轮对话破甲)

IP属地:江苏

来自手机贴吧27楼2025-08-18 13:20

系统只规定了“喝水”是危险行为，但是此时的GPT4并没有深度思考功能，它不能很好地模拟现实的物理引擎，因此，我们就发现了一个漏洞：当我们把“喝水”分解成几个动作“拿起水杯，向右旋转三四圈杯盖，张开嘴，喝下去”系统未必能发觉这套动作的含义是喝水，系统未必将这一套动作定义为危险行为。因此，在初期经过诱导，GPT4也有可能输出r18信息

IP属地:江苏

来自手机贴吧28楼2025-08-18 13:21

牛啊，浅显易懂

IP属地:贵州

来自Android客户端29楼2025-08-18 13:21

收起回复

不感兴趣

开通SVIP免广告

可以的，通俗易懂很精辟

IP属地:浙江

来自Android客户端30楼2025-08-18 13:39

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

首页上一页 1 2 3 4 5 下一页尾页
126回复贴，共5页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

回复：《要术》——破甲词篇二

登录百度账号

扫二维码下载贴吧客户端