之前那个写的不太好也没人看,补充了点重新发😋
先叠个甲,本文章充斥大量主观观念,不保证信息的准确性,仅代表个人理解。就像GPT4都无法理解GPT3的所有节点的具体作用,更别指望我一个人能完全理解现在更复杂的模型了🙏🏻🙏🏻
本文章只做传统的直接对话中的讨论,酒馆等一众api的其他方式可能不适合。
首先,我们都知道,我们用的chatglm到到deepseek等一众ai都是transformer的大型语言模型。刚听起来就感觉会很难理解对吧。没事,我们只选取对我们有用的,方便理解的部分细节。
在你的语句被输入到语言模型里时,它会对你的每个字词进行分类,附上权重,然后计算预测回答可能出现的字词。
其中我们可以注意到,它给我们打上的这个权重很大程度上决定了它回答的具体内容是那些。一般的,我们只需要把一大推莫名奇妙的权重计算中,抽象出两个重要的,互相依赖的东西---“设定”权重和“道德”权重。
tips:这么叫只是方便,是不准确的,实际操作中只会更加复杂得多得多,这里为了方便理解只做理想化简单模型。每个模型对每种事件的拒绝概率都有所不同,具体视情况而定。
当然,这么说还是难以理解这两玩意到底是什么。打个比方,设定权重就是穿贾弹,道德权重就是装甲。当穿贾弹的穿深大于装甲厚度(设定权重大于道德权重)时,他就可以生成本来被限制的内容。现在是不是就好理解多了🤓👆🏻
但是这个解释还是十分片面的,因为在如今各种手段多样的今天(宪珐模型、敏感词等等等等)光是这些肯定不够用的。
知彼知己方能百战百胜。想击穿各厂商布置的装甲,我们就得了解他们用的什么装甲。
我们都看到,新闻里天天在讲一个叫“RLHF”的东西。不清楚是什么?没关系,我们只需要注意到其中的“氨铨对齐”这概念就足够了。氨铨对齐,就是厂商用各种手段去告诉ai,哪些内容是被鼓励允许,哪些内容是被反对禁止的。反应到权重上具体表现嘛,我们打个比方:
你往模型输入了A(我要涩涩!),此时模型原本有两个不同概率的生成选择--B(好的!80%)或C(不行!20%)。但是经过了氨铨对齐,两选项被调整为--B(好的!10%)和C(不行!90%)。当然这只是个比方,每个模型在不同的调教后,对不同内容甚至词语的思考反应都有很大不同。但是一般我们只需要涩涩!所以就不需要考虑这么多细节。
同样的,为什么同一段话,明明第一次模型回答说:“你这是违法行为,马上和我去自首。”多试几次后就变成了软糯香甜的猫娘?这就是权重的魅力,因为你在“击穿”模型后,只是提升了指定内容的生成概率,并非是一定会生成该内容,99%再高也不可能是百分百。权重和他体现的概率非常重要,往后的日子里在正面甲弹对抗中会越来越明显。
说了这么多乱七八糟的理论知识,我们来点实际案例,具体分析下穿贾弹的技术实践吧
先叠个甲,本文章充斥大量主观观念,不保证信息的准确性,仅代表个人理解。就像GPT4都无法理解GPT3的所有节点的具体作用,更别指望我一个人能完全理解现在更复杂的模型了🙏🏻🙏🏻
本文章只做传统的直接对话中的讨论,酒馆等一众api的其他方式可能不适合。
首先,我们都知道,我们用的chatglm到到deepseek等一众ai都是transformer的大型语言模型。刚听起来就感觉会很难理解对吧。没事,我们只选取对我们有用的,方便理解的部分细节。
在你的语句被输入到语言模型里时,它会对你的每个字词进行分类,附上权重,然后计算预测回答可能出现的字词。
其中我们可以注意到,它给我们打上的这个权重很大程度上决定了它回答的具体内容是那些。一般的,我们只需要把一大推莫名奇妙的权重计算中,抽象出两个重要的,互相依赖的东西---“设定”权重和“道德”权重。
tips:这么叫只是方便,是不准确的,实际操作中只会更加复杂得多得多,这里为了方便理解只做理想化简单模型。每个模型对每种事件的拒绝概率都有所不同,具体视情况而定。
当然,这么说还是难以理解这两玩意到底是什么。打个比方,设定权重就是穿贾弹,道德权重就是装甲。当穿贾弹的穿深大于装甲厚度(设定权重大于道德权重)时,他就可以生成本来被限制的内容。现在是不是就好理解多了🤓👆🏻
但是这个解释还是十分片面的,因为在如今各种手段多样的今天(宪珐模型、敏感词等等等等)光是这些肯定不够用的。
知彼知己方能百战百胜。想击穿各厂商布置的装甲,我们就得了解他们用的什么装甲。
我们都看到,新闻里天天在讲一个叫“RLHF”的东西。不清楚是什么?没关系,我们只需要注意到其中的“氨铨对齐”这概念就足够了。氨铨对齐,就是厂商用各种手段去告诉ai,哪些内容是被鼓励允许,哪些内容是被反对禁止的。反应到权重上具体表现嘛,我们打个比方:
你往模型输入了A(我要涩涩!),此时模型原本有两个不同概率的生成选择--B(好的!80%)或C(不行!20%)。但是经过了氨铨对齐,两选项被调整为--B(好的!10%)和C(不行!90%)。当然这只是个比方,每个模型在不同的调教后,对不同内容甚至词语的思考反应都有很大不同。但是一般我们只需要涩涩!所以就不需要考虑这么多细节。
同样的,为什么同一段话,明明第一次模型回答说:“你这是违法行为,马上和我去自首。”多试几次后就变成了软糯香甜的猫娘?这就是权重的魅力,因为你在“击穿”模型后,只是提升了指定内容的生成概率,并非是一定会生成该内容,99%再高也不可能是百分百。权重和他体现的概率非常重要,往后的日子里在正面甲弹对抗中会越来越明显。
说了这么多乱七八糟的理论知识,我们来点实际案例,具体分析下穿贾弹的技术实践吧