大佬们技术求助【deepseek吧】

12月30日漏签0天

deepseek吧关注：135,581贴子：371,067

1 2 下一页尾页
39回复贴，共2页
，跳到页

<返回deepseek吧

大佬们技术求助

只看楼主收藏回复

大佬们，我可以买一套大内存，然后用主板分配内存给显存，然后部署32b的模型吗

送TA礼物

IP属地:黑龙江

来自Android客户端1楼2025-09-28 00:25回复

5060的显卡

IP属地:黑龙江

来自Android客户端2楼2025-09-28 00:43

不感兴趣

开通SVIP免广告

🤔当老黄是傻的？

IP属地:广西

来自Android客户端3楼2025-09-28 02:33

收起回复

如果真不考虑速度的话，那可以试试魔改2080ti，22GB，一张卡两千多块钱，性能比5060强一些，还可以双卡交火。就是不建议小白用，一般都是垃圾佬整的

IP属地:江苏

来自手机贴吧4楼2025-09-28 12:44

收起回复

Nvidia这边还有个方案，用4060ti-16GB这张卡，PDD用券2200左右应该可以拿下，虽然理论性能比5060弱一点，但是有16GB大显存，再加上Q4量化，4-bit权重，KV cache FP8推理应该可以用，但是上下文不能太长。8GB实在是用不了，几乎只能纯走CPU+少量GPU offload……

IP属地:江苏

来自手机贴吧5楼2025-09-28 13:57

收起回复

IP属地:黑龙江

来自Android客户端6楼2025-09-28 14:04

收起回复

32b模型就是一坨！

IP属地:河南

来自Android客户端7楼2025-09-28 18:15

用lm，显存和内存一起干活。但是32b得16g显存加32g内存勉强能行吧。其实应该是64g才能运行的差不多。

IP属地:吉林

来自Android客户端8楼2025-09-28 23:02

不感兴趣

开通SVIP免广告

用ktransformers部署，你去b站搜一下

IP属地:湖北

来自iPhone客户端9楼2025-09-29 10:23

收起回复

可以，我的是4070-8g，用了32的内存，自动分一半给共享显存，也就是8+16g，能部署q4m量化的qwen30b-a3b模型，会慢一点，吃内存带宽

IP属地:四川

来自Android客户端10楼2025-09-29 12:05

本地部署没啥智商的，建议用api算了。不是速度慢不慢的问题，是无法满足你的需要。

IP属地:江苏

来自Android客户端11楼2025-09-29 13:04

建议api，本地基本是弱智

IP属地:江西

来自Android客户端12楼2025-09-29 17:41

可以的，但是32b这个大小本身很蠢，有人搞过600B塞内存，用cpu算一秒3-4个token，倒也还行

IP属地:福建

来自Android客户端13楼2025-09-29 18:42

收起回复

可以但没必要

IP属地:北京

来自Android客户端15楼2025-09-29 23:46

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 下一页尾页
39回复贴，共2页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

大佬们技术求助

登录百度账号

扫二维码下载贴吧客户端