deepseek吧 关注:135,581贴子:371,067

大佬们技术求助

只看楼主收藏回复

大佬们,我可以买一套大内存,然后用主板分配内存给显存,然后部署32b的模型吗


IP属地:黑龙江来自Android客户端1楼2025-09-28 00:25回复
    5060的显卡


    IP属地:黑龙江来自Android客户端2楼2025-09-28 00:43
    回复
      2025-12-30 17:01:08
      广告
      不感兴趣
      开通SVIP免广告
      🤔当老黄是傻的?


      IP属地:广西来自Android客户端3楼2025-09-28 02:33
      收起回复
        如果真不考虑速度的话,那可以试试魔改2080ti,22GB,一张卡两千多块钱,性能比5060强一些,还可以双卡交火。就是不建议小白用,一般都是垃圾佬整的


        IP属地:江苏来自手机贴吧4楼2025-09-28 12:44
        收起回复
          Nvidia这边还有个方案,用4060ti-16GB这张卡,PDD用券2200左右应该可以拿下,虽然理论性能比5060弱一点,但是有16GB大显存,再加上Q4量化,4-bit权重,KV cache FP8推理应该可以用,但是上下文不能太长。8GB实在是用不了,几乎只能纯走CPU+少量GPU offload……


          IP属地:江苏来自手机贴吧5楼2025-09-28 13:57
          收起回复




            IP属地:黑龙江来自Android客户端6楼2025-09-28 14:04
            收起回复
              32b模型就是一坨!


              IP属地:河南来自Android客户端7楼2025-09-28 18:15
              回复
                用lm,显存和内存一起干活。但是32b得16g显存加32g内存勉强能行吧。其实应该是64g才能运行的差不多。


                IP属地:吉林来自Android客户端8楼2025-09-28 23:02
                回复
                  2025-12-30 16:55:08
                  广告
                  不感兴趣
                  开通SVIP免广告
                  用ktransformers部署,你去b站搜一下


                  IP属地:湖北来自iPhone客户端9楼2025-09-29 10:23
                  收起回复
                    可以,我的是4070-8g,用了32的内存,自动分一半给共享显存,也就是8+16g,能部署q4m量化的qwen30b-a3b模型,会慢一点,吃内存带宽


                    IP属地:四川来自Android客户端10楼2025-09-29 12:05
                    回复
                      本地部署没啥智商的,建议用api算了。不是速度慢不慢的问题,是无法满足你的需要。


                      IP属地:江苏来自Android客户端11楼2025-09-29 13:04
                      回复
                        建议api,本地基本是弱智


                        IP属地:江西来自Android客户端12楼2025-09-29 17:41
                        回复
                          可以的,但是32b这个大小本身很蠢,有人搞过600B塞内存,用cpu算一秒3-4个token,倒也还行


                          IP属地:福建来自Android客户端13楼2025-09-29 18:42
                          收起回复
                            可以但没必要


                            IP属地:北京来自Android客户端15楼2025-09-29 23:46
                            回复