deepseek吧 关注:136,745贴子:382,727

中成本本地化部署方案成功671b版

只看楼主收藏回复

因为从事图书编辑工作,对比了70b版和671b满血版发现:对我提出的段落章节要求70b往往会忽略,并自行简化了文本内容,设计情结复杂度70b会小于671b。
单位不想出100来万布置671b的硬件。预算只有5万内,该如何实现本地化呢,不用任何外部api接口。
我配置的家用娱乐级PC:
14900kf
技嘉z790
128g4800 ddr5内存,金士顿
4090涡轮版24g*2
4t硬盘金士顿7000速m.2
2000w长城金牌
360液冷CPU散热
纸皮机箱
共计花费49000元,CPU和固态还能再降点,一样能跑。
老步骤布置ollama,布置cherry studio,右下角小图标退出ollama
我的电脑属性>高级系统配置>环境变量>新建用户变量
OLLAMA_HOST, 值0.0.0.0
OLLAMA_ORIGINS,值*
搜索c盘里ollama和.ollama两个文件夹,把ollama和.ollama文件夹剪切到d盘(也可以是随意空间容量大的硬盘)
环境变量>编辑>新建>d: \Ollama
环境变量>编辑>新建>d: \.Ollama\models
确定后再次打开ollama,弹出防火墙提醒,点确认。
然后查看本地网络IP4的地址就是192.168.0.xxx的地址,
以上两部操作是将ollama和ai模型库文件装载到d盘,给c盘留出空间,同时将ollama放置到局域网内部,其他同事可以通过cherry,报脸,regflow,anythingllm,chatbox,openwebui,Firefox page assist等软件里设置ollama,URL地址就填http: //192.168.0.xxx: 11434
用来调用这台电脑的ollama模型库。然后还可以用lucky666的反代理镜像局域网的ollama到外网,使在家办公的员工也可以调用这台电脑的ollama。(需要租用域名)
下一步直接win➕r键,输入cmd,输入ollama run SIGJNF/deepseek-r1-671b-1.58bit
下载这个1.58位向量化的满血deepseek到我们设置的d盘。
下载完成后关闭窗口再次cmd进入命令行输入:set CUDA_VISIBLE_DEVICES=0, 1
这样就将140g的模型装载到内存中运行。
我目前测试下来的速度是70b版本15.8t/s,671b1.58bit版2.7t/s。
一些小icon图标在1.58bit版本中被裁剪掉了,体积缩小了很多。生成文本的速度越1秒5-7个汉字,我觉得还算能接受,指令执行的精准度也比70b版本好太多。
当然咯5万以内的硬件还可以用3090x4,256g内存的服务器版方案,但是我这不也兼顾了用单位电脑打3a的娱乐需求么。#deepseek 671b本地布置#


IP属地:北京来自iPhone客户端1楼2025-02-12 18:05回复
    量化的太狠了,还有必要硬上吗


    IP属地:河南来自iPhone客户端3楼2025-02-13 09:17
    收起回复
      2026-02-06 23:24:33
      广告
      不感兴趣
      开通SVIP免广告
      清华大学最新开源了一张4090+382g内存本地部署671b的方案


      IP属地:上海来自iPhone客户端4楼2025-02-13 11:44
      收起回复
        你这个还是ollama的蒸馏版啊,清华大学那个方案可以跑hf上的原版


        IP属地:上海来自iPhone客户端5楼2025-02-13 11:46
        收起回复
          128g内存塞不下的,670B已经在硬盘上跑了
          话说ollama不是只能单卡吗,两张4090没必要吧


          IP属地:福建6楼2025-02-13 11:58
          收起回复
            怎么玩的?


            IP属地:黑龙江来自Android客户端7楼2025-02-13 12:14
            回复
              1..58bit。。。。。


              IP属地:广东来自Android客户端8楼2025-02-13 16:56
              回复
                感谢楼主分享。但我认为其实本地部署必要不是很大,性价比太低。目前主流的价格满血版是百万token/16元,速度在10t/s。按照你给出的速度大约生成一百万token要用92小时左右。这套配置跑92小时电费都不止16了。
                当然如果有信息需要保密肯定是有限上本地服务器。不过普通人或者中小公司的话完全没必要本地部署,本地部署也可以用专业的大显存计算卡而不是游戏卡。


                IP属地:海南来自Android客户端9楼2025-02-13 17:04
                收起回复
                  2026-02-06 23:18:33
                  广告
                  不感兴趣
                  开通SVIP免广告
                  52核心的服务器插满8通道内存也能达到3.8左右,双路插满32条96g的内存反而慢了


                  IP属地:天津来自Android客户端11楼2025-02-13 22:24
                  收起回复
                    这你还不如买个mac studio,192g版跑1.76能有10t速度


                    IP属地:广东来自Android客户端12楼2025-02-14 02:04
                    收起回复
                      有人测试用洋垃圾e5+24条ddr3内存不无gpu,跑404那个671b 4bit量化的模型,据说也能到2-4t/s
                      总成本不到5000


                      IP属地:北京来自Android客户端13楼2025-02-14 08:36
                      收起回复
                        5w预算搞最新ktransformers可以跑到10t了吧,再开个虚拟机办公


                        IP属地:四川来自Android客户端14楼2025-02-14 08:45
                        回复
                          这个配置太奢侈了大佬,但是效果略差


                          IP属地:江苏来自Android客户端15楼2025-02-14 11:38
                          回复
                            1.58bit什么垃圾,q4以下都不能用


                            IP属地:上海来自Android客户端16楼2025-02-14 12:18
                            收起回复