中成本本地化部署方案成功671b版【deepseek吧】

deepseek吧关注：136,745贴子：382,727

1 2 下一页尾页
87回复贴，共2页
，跳到页

中成本本地化部署方案成功671b版

因为从事图书编辑工作，对比了70b版和671b满血版发现：对我提出的段落章节要求70b往往会忽略，并自行简化了文本内容，设计情结复杂度70b会小于671b。
单位不想出100来万布置671b的硬件。预算只有5万内，该如何实现本地化呢，不用任何外部api接口。
我配置的家用娱乐级PC：
14900kf
技嘉z790
128g4800 ddr5内存，金士顿
4090涡轮版24g*2
4t硬盘金士顿7000速m.2
2000w长城金牌
360液冷CPU散热
纸皮机箱
共计花费49000元，CPU和固态还能再降点，一样能跑。
老步骤布置ollama，布置cherry studio，右下角小图标退出ollama
我的电脑属性＞高级系统配置＞环境变量＞新建用户变量
OLLAMA_HOST, 值0.0.0.0
OLLAMA_ORIGINS，值*
搜索c盘里ollama和.ollama两个文件夹，把ollama和.ollama文件夹剪切到d盘（也可以是随意空间容量大的硬盘）
环境变量＞编辑＞新建＞d: \Ollama
环境变量＞编辑＞新建＞d: \.Ollama\models
确定后再次打开ollama，弹出防火墙提醒，点确认。
然后查看本地网络IP4的地址就是192.168.0.xxx的地址，
以上两部操作是将ollama和ai模型库文件装载到d盘，给c盘留出空间，同时将ollama放置到局域网内部，其他同事可以通过cherry，报脸，regflow，anythingllm，chatbox，openwebui，Firefox page assist等软件里设置ollama，URL地址就填http: //192.168.0.xxx: 11434
用来调用这台电脑的ollama模型库。然后还可以用lucky666的反代理镜像局域网的ollama到外网，使在家办公的员工也可以调用这台电脑的ollama。（需要租用域名）
下一步直接win➕r键，输入cmd，输入ollama run SIGJNF/deepseek-r1-671b-1.58bit
下载这个1.58位向量化的满血deepseek到我们设置的d盘。
下载完成后关闭窗口再次cmd进入命令行输入：set CUDA_VISIBLE_DEVICES＝0, 1
这样就将140g的模型装载到内存中运行。
我目前测试下来的速度是70b版本15.8t/s，671b1.58bit版2.7t/s。
一些小icon图标在1.58bit版本中被裁剪掉了，体积缩小了很多。生成文本的速度越1秒5-7个汉字，我觉得还算能接受，指令执行的精准度也比70b版本好太多。
当然咯5万以内的硬件还可以用3090x4，256g内存的服务器版方案，但是我这不也兼顾了用单位电脑打3a的娱乐需求么。

#deepseek 671b本地布置#

送TA礼物

IP属地:北京

来自iPhone客户端1楼2025-02-12 18:05回复

量化的太狠了，还有必要硬上吗

IP属地:河南

来自iPhone客户端3楼2025-02-13 09:17

收起回复

不感兴趣

开通SVIP免广告

清华大学最新开源了一张4090+382g内存本地部署671b的方案

IP属地:上海

来自iPhone客户端4楼2025-02-13 11:44

收起回复

你这个还是ollama的蒸馏版啊，清华大学那个方案可以跑hf上的原版

IP属地:上海

来自iPhone客户端5楼2025-02-13 11:46

收起回复

128g内存塞不下的，670B已经在硬盘上跑了

话说ollama不是只能单卡吗，两张4090没必要吧

IP属地:福建

6楼2025-02-13 11:58

收起回复

怎么玩的？

IP属地:黑龙江

来自Android客户端7楼2025-02-13 12:14

1..58bit。。。。。

IP属地:广东

来自Android客户端8楼2025-02-13 16:56

感谢楼主分享。但我认为其实本地部署必要不是很大，性价比太低。目前主流的价格满血版是百万token/16元，速度在10t/s。按照你给出的速度大约生成一百万token要用92小时左右。这套配置跑92小时电费都不止16了。
当然如果有信息需要保密肯定是有限上本地服务器。不过普通人或者中小公司的话完全没必要本地部署，本地部署也可以用专业的大显存计算卡而不是游戏卡。

IP属地:海南

来自Android客户端9楼2025-02-13 17:04

收起回复

不感兴趣

开通SVIP免广告

52核心的服务器插满8通道内存也能达到3.8左右，双路插满32条96g的内存反而慢了

IP属地:天津

来自Android客户端11楼2025-02-13 22:24

收起回复

这你还不如买个mac studio，192g版跑1.76能有10t速度

IP属地:广东

来自Android客户端12楼2025-02-14 02:04

收起回复

有人测试用洋垃圾e5+24条ddr3内存不无gpu，跑404那个671b 4bit量化的模型，据说也能到2-4t/s
总成本不到5000

IP属地:北京

来自Android客户端13楼2025-02-14 08:36

收起回复

5w预算搞最新ktransformers可以跑到10t了吧，再开个虚拟机办公

IP属地:四川

来自Android客户端14楼2025-02-14 08:45

这个配置太奢侈了大佬，但是效果略差

IP属地:江苏

来自Android客户端15楼2025-02-14 11:38

1.58bit什么垃圾，q4以下都不能用

IP属地:上海

来自Android客户端16楼2025-02-14 12:18

收起回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 下一页尾页
87回复贴，共2页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

中成本本地化部署方案成功671b版

登录百度账号

扫二维码下载贴吧客户端