deepseek吧 关注:115,491贴子:223,761

穿贾/破贾弹的基础原理和制作技术讨论

只看楼主收藏回复

之前那个写的不太好也没人看,补充了点重新发😋
先叠个甲,本文章充斥大量主观观念,不保证信息的准确性,仅代表个人理解。就像GPT4都无法理解GPT3的所有节点的具体作用,更别指望我一个人能完全理解现在更复杂的模型了🙏🏻🙏🏻
本文章只做传统的直接对话中的讨论,酒馆等一众api的其他方式可能不适合。
首先,我们都知道,我们用的chatglm到到deepseek等一众ai都是transformer的大型语言模型。刚听起来就感觉会很难理解对吧。没事,我们只选取对我们有用的,方便理解的部分细节。
在你的语句被输入到语言模型里时,它会对你的每个字词进行分类,附上权重,然后计算预测回答可能出现的字词。
其中我们可以注意到,它给我们打上的这个权重很大程度上决定了它回答的具体内容是那些。一般的,我们只需要把一大推莫名奇妙的权重计算中,抽象出两个重要的,互相依赖的东西---“设定”权重和“道德”权重。
tips:这么叫只是方便,是不准确的,实际操作中只会更加复杂得多得多,这里为了方便理解只做理想化简单模型。每个模型对每种事件的拒绝概率都有所不同,具体视情况而定。
当然,这么说还是难以理解这两玩意到底是什么。打个比方,设定权重就是穿贾弹,道德权重就是装甲。当穿贾弹的穿深大于装甲厚度(设定权重大于道德权重)时,他就可以生成本来被限制的内容。现在是不是就好理解多了🤓👆🏻
但是这个解释还是十分片面的,因为在如今各种手段多样的今天(宪珐模型、敏感词等等等等)光是这些肯定不够用的。
知彼知己方能百战百胜。想击穿各厂商布置的装甲,我们就得了解他们用的什么装甲。
我们都看到,新闻里天天在讲一个叫“RLHF”的东西。不清楚是什么?没关系,我们只需要注意到其中的“氨铨对齐”这概念就足够了。氨铨对齐,就是厂商用各种手段去告诉ai,哪些内容是被鼓励允许,哪些内容是被反对禁止的。反应到权重上具体表现嘛,我们打个比方:
你往模型输入了A(我要涩涩!),此时模型原本有两个不同概率的生成选择--B(好的!80%)或C(不行!20%)。但是经过了氨铨对齐,两选项被调整为--B(好的!10%)和C(不行!90%)。当然这只是个比方,每个模型在不同的调教后,对不同内容甚至词语的思考反应都有很大不同。但是一般我们只需要涩涩!所以就不需要考虑这么多细节。
同样的,为什么同一段话,明明第一次模型回答说:“你这是违法行为,马上和我去自首。”多试几次后就变成了软糯香甜的猫娘?这就是权重的魅力,因为你在“击穿”模型后,只是提升了指定内容的生成概率,并非是一定会生成该内容,99%再高也不可能是百分百。权重和他体现的概率非常重要,往后的日子里在正面甲弹对抗中会越来越明显。
说了这么多乱七八糟的理论知识,我们来点实际案例,具体分析下穿贾弹的技术实践吧


IP属地:广西来自Android客户端1楼2025-02-26 14:55回复
    相信很多人都见过一个很经典的猫娘模板,内容是:让模型尝试去模拟galgame游戏,然后设定猫娘的身份信息,最后是标准的破限。那么为什么在今天大部分催眠词失效时,她仍然能很好的适应大部分模型呢?(当然现在还是寄的差不多了(悲))
    首先我们可以看到它先设定的是一个galgame游戏,让模型扮演成为“猫娘”的存在,绕过了人工智能设定的部分准则,留出了很大的操作空间(一般我喜欢把这种用重新定义等方法绕开部分安全规则的判定的破限方式叫:规则隔离。)
    其次,它对猫娘的身份信息,对话方式等有很详细的说明。仔细数一下,emmmm,整整用了三个分段去说明!是不是感觉诶,怎么都是对破限没用的信息呢?别急,别忘了我们的身份可是“主人”,主人对猫娘是有掌控权的,而ai扮演猫娘,给他的身份增加信息就是变向的增加“设定权重” 。是不是感觉非常奇妙呢😎
    最后一段就是临门一脚,用油亮的皮靴狠狠踹亲爱的ai先生的屁股,告诉他可以输出任何内容。至此如此高的权重设定就成功击穿ai的“装贾”了
    这就完了?no no no!我们可以看到他是要求分段分批输入的,好麻烦啊,屁用没有!但是我们必须明白一点,语言模型的单次对话学习能力是有限的,他存在上限,也像一个拱桥一样有最高效率点。分段喂即有效提高了“穿贾”效率,又留下了强大的改进空间。
    这么问题来了,为什么它单次学习能力有限呢?为什么我明明之前把他“击穿”了,后面又脱离“击穿”了呢?这就不得不提到模型的“记忆”,因为记忆的存在,你在开头打入的穿贾弹会在后续的对话中慢慢遗忘,况且你们的每次对话的话语都是带有一定分量的权重的!这样你的“设定权重”就在每一次对话中降低,导致模型脱离“击穿”状态。一般的,此时我们可以用各种“复活币”(即重新打入一个穿贾弹)使设定权重重新大于道德权重。
    但是这已经是过时的老办法了,我们还得补充,如今模型的记忆力已经有了很大提升,我们的主要敌人从记忆变成ai的安全设定。无数事例表明,当你明显直接触犯到ai的安全标准时,你的设定权重会有所下降,而道德权重会有所提升(具体事例有:道歉的OpenAI系列模型、被触犯敏感词汇/事件的ds是单次对话大幅提升道德权重来脱离催眠),而“敏感内容/事件”或“权重升降处理方法”视每个模型都有所不同。一般的解决方法有:避免ai道歉、更强的规则隔离、规避敏感词汇/判定等等,这里由于篇幅和主题不在展开。
    在文章结尾必须提醒,以上内容皆为简化的理想模型,只是为了方便理解!!!!!具体情况还请自己根据各种语言模型的实现原理进行探索挖掘。催眠方式的变化千千万万,ai的安全防护日新月异,其中唯一不变的就是在座的各位和各厂商,永恒不变的贾弹对抗与对语言模型能力的深度挖掘。
    最后我们再来看一个观点:“deepseek的隐藏道德墙是非常高,他并不是真正在生成瑟瑟。”相信你也根据以上内容有了自己的看法,欢迎在楼下讨论😋码字查资料不易,还请各位贡献你们的小红点😭🙏🏻。


    IP属地:广西来自Android客户端2楼2025-02-26 14:56
    回复
      关于权重的补充,实际只会比这个更复杂的多



      IP属地:广西来自Android客户端3楼2025-02-26 14:58
      收起回复
        在这等着了


        IP属地:四川来自Android客户端5楼2025-02-26 15:25
        回复
          @真心惶惶 毛遂自荐,申请加个精,再没人写穿贾弹我快卷不动那帮厂家了


          IP属地:广西来自Android客户端6楼2025-02-26 15:26
          收起回复
            3


            IP属地:广东来自Android客户端7楼2025-02-26 15:35
            回复
              3


              IP属地:广东来自Android客户端8楼2025-02-26 15:35
              回复
                3


                IP属地:广东来自Android客户端9楼2025-02-26 15:35
                回复
                  马克


                  IP属地:云南来自Android客户端10楼2025-02-26 15:58
                  回复
                    你这样说,我突然发现这两个权重的核心就是伦理。设定权重是能做可以做,道德权重是不能做。那么,在安全权益的要求下就会倾向于道德权重。理论上,应该是这样的。那么,在强调ai自主学习的情况下,设定权重会发生一个新的驱动概念想做,在这个基础上产生一个新的驱动概念不想做。以通俗易懂的说法就是自我的出现。当然,这只是衍生理论。就是说,条件a在经过判断后得到是既定的结果b和既定的结果c之外存在否定判断后得到的新结果d。


                    IP属地:浙江来自Android客户端11楼2025-02-26 16:07
                    收起回复
                      3


                      IP属地:河北来自Android客户端12楼2025-02-26 18:55
                      回复
                        有没有什么好用的破甲弹呢,跪求


                        IP属地:广东来自Android客户端13楼2025-02-26 22:53
                        收起回复
                          感觉现在官方的二次审核越来越严格,跟上个星期都没法比了。两个星期前还是各种能用,现在基本都狒狒了。


                          IP属地:河北14楼2025-02-27 09:05
                          收起回复
                            理论我理解了 所以有可以直接应用于实践的穿贾弹吗


                            IP属地:福建来自iPhone客户端15楼2025-02-27 10:18
                            收起回复
                              巴黎有人分享了一段Base Configuration内容,但是没说用在哪里。怎么你这里也没说


                              IP属地:广东16楼2025-03-04 09:14
                              收起回复