ChatGPT的技术亮点在于“零样本学习能力突出”,它无需额外训练,可直接处理未见过的任务,生成合理输出,适应性强。并且随着GPT3.5,GPT4,4o的不断迭代,它的上下文长度越来越长,因此能提高话题连贯性,提升用户体验。
DeepSeek的技术亮点,首先是采用了蒸馏的方法,通俗来讲就是DS去学习其他大模型(比如GPT)的思考过程,通过“老师(GPT)教学生(DS)”的方法来训练自己,这会大大降低成本。其次采取了动态专家路由机制,根据不同任务动态分配最优专家模块,提升任务处理效率。并且其领域知识密度优化显著:PPL指标降低15-20%,在垂直领域知识精度和深度方面表现优异。