民科吧 关注:408,488贴子:5,070,271
  • 5回复贴,共1

突然一下子知道为什么deepseek这么牛了

只看楼主收藏回复

在deepseek的相关技术中提到了一项非常关键的技术叫蒸馏
蒸馏技术说白了就是一个学生从老师那里学东西,比方说这名学生就是deepseek
在学习的过程中实际学到的信息可能会跟老师讲的有所出入
那怎么办呢?
那就要么提高一下学生的学习能力
要么就多找几个老师
所以deepseek本身在优化自身的学习能力,同时它也在从很多大模型中提取信息,比如ChatGPT、豆包、文心一言等等,反正做大模型的公司挺多的。
可以说所有的开源大模型都是它的信息学习对象。
不过说好听点叫信息提取,说难听点叫信息窃取
那假如美国那边反应过来了,说你这不就是偷我们的推理结果么?我们不开源了……
美国这么搞可以吗?有用吗?
答案是没用
因为就算美国不搞或者不开源了,中国也会搞
而且如果美国不开源了,他在竞争上就会被中国碾压。
所以deepseek可以说是长江后浪推前浪,后浪把前浪全部拍死在沙滩上了。


IP属地:江苏来自iPhone客户端1楼2025-02-25 07:45回复
    它闭源了也就是我们需要更多数据标记的成本罢了。其实中文互联网内容并不少,只是不open显得内容很少


    IP属地:福建来自Android客户端2楼2025-02-25 18:03
    回复
      2026-03-12 05:20:02
      广告
      不感兴趣
      开通SVIP免广告
      你是完全没弄懂蒸馏的意思啊,这跟找几个老师雪没啥关系。蒸馏的本质就是削减参数降低运算量,牺牲准确性来降低硬件要求和提升运算速度。


      IP属地:河北来自Android客户端4楼2025-02-27 01:51
      回复
        还真是


        IP属地:河南来自Android客户端5楼2025-02-28 17:55
        回复