deepseek吧 关注:135,121贴子:367,973
  • 1回复贴,共1

cpu 跑deepseek选择量化Q4还是Q8

取消只看楼主收藏回复

古老一点cpu跑deepseek据说是用的AVX2,最小支持char类型也就是8bit,如果用Q4那么cpu是不是没法直接计算,需要先转化成8bit,速度反而比Q8慢?不考虑内存大小及带宽。


IP属地:重庆来自Android客户端1楼2025-02-23 18:48回复
    还是自己来实验。A8-7650K,双通道amd1600专用条,跑deepseek-r1 1.5b Q4 Q8,设置的单线程,Q4 2.5token/s,Q8 2token/s 慢20%


    IP属地:重庆来自Android客户端2楼2025-02-27 19:20
    收起回复