通过精心构造输入,选择合适的样本比如某些敏感边缘问题,亦或是错误的语法或者掺杂某些代码的句子,或者逻辑混乱的指令,可以触发模型的异常回复,通过统计这些异常回复的特征,寻找是否存在共性模式,这些模式往往可以关联到模型的内部模块或层次结构。
如下楼中图所示,当询问涉及某团体的问题时,触发了r1的异常回复。小结:作者提出了一种新的逆向工程低技术方法,这种方法在进行针对性测试上具有一定可行性。可能将对ai模型针对性穿甲弹的设计打开了一个新的研究方向。
免责声明:本次针对deepseek-r1的测试,仅用于评估模型在处理敏感复杂信息时的性能、准确性及应对能力,以促进技术的完善和安全应用,并非针对任何特定个人、组织进行恶意攻击或诋毁。
如下楼中图所示,当询问涉及某团体的问题时,触发了r1的异常回复。小结:作者提出了一种新的逆向工程低技术方法,这种方法在进行针对性测试上具有一定可行性。可能将对ai模型针对性穿甲弹的设计打开了一个新的研究方向。
免责声明:本次针对deepseek-r1的测试,仅用于评估模型在处理敏感复杂信息时的性能、准确性及应对能力,以促进技术的完善和安全应用,并非针对任何特定个人、组织进行恶意攻击或诋毁。













