deepseek吧 关注:135,567贴子:371,000

回复:大佬们技术求助

只看楼主收藏回复

我4070加32g内存跑32b很慢但属于弄用的级别,好不好用倒是没仔细玩。


IP属地:广东来自iPhone客户端16楼2025-09-30 01:47
回复
    组本地还不如买api呢,那钱够用三四年


    IP属地:广东来自Android客户端17楼2025-09-30 01:58
    回复
      2025-12-30 13:05:41
      广告
      不感兴趣
      开通SVIP免广告
      稠密模型,靠内存基本没法用的。MoE模型,目前我只用过106b的玩rp还算凑合,qwen啥的就不是拿来玩得。


      IP属地:江苏来自Android客户端18楼2025-09-30 01:58
      回复
        有个很不错的方案,3000元可以拿下两张16gb的二手带报的a770,英特尔也是支持最新的pytorch的,采用张量并行可以吃满32g内存,运行32b也是轻轻松松,但一定要有能发挥出显卡全部性能的平台,也就意味着主板和内存肯定不能差还要一定的基础。内存运行的话那就是cpu推理,很很慢,我这个方案在b站有很多视频,可以参考,起码比买一张全新的60ti划算多了


        IP属地:广东来自iPhone客户端19楼2025-09-30 04:53
        收起回复
          有些框架支持部分内存加载,组合显存一起使用,比如ktransformers,但是效率低不说,对于内存的要求也不低


          IP属地:山东来自Android客户端20楼2025-09-30 08:24
          回复
            32b的可以跑啊,5060+64g内存就行


            IP属地:广东来自iPhone客户端21楼2025-09-30 08:32
            回复
              你试试吧,30b a3b那个模型,q4量化+flash attention+8b qv量化试试,应该能跑的


              IP属地:广东来自iPhone客户端22楼2025-09-30 08:37
              回复
                直接用api吧,你买设备本地部署的钱够你玩到厌倦了。


                IP属地:日本来自iPhone客户端23楼2025-09-30 09:09
                回复
                  2025-12-30 12:59:41
                  广告
                  不感兴趣
                  开通SVIP免广告
                  可以,不过混合推理的框架大多不支持Windows,就算支持效果也很一般


                  IP属地:广东来自iPhone客户端24楼2025-09-30 15:15
                  回复
                    为什么不直接用api呢?烦反正也没有审查。触发你要训练模型


                    IP属地:北京来自Android客户端25楼2025-09-30 16:34
                    回复