deepseek吧 关注:136,549贴子:381,243
  • 31回复贴,共1
求助

为啥本地部署ai的回答这么慢

只看楼主收藏回复

闲着没事部署了一个deepseek r1 8b的模型,但是运行起来会回答个问候都要一分多钟,CPU GPU显存内存都没满,但就是回答很慢



疑似含AI内容
IP属地:法国来自Android客户端1楼2025-12-18 23:47回复
    冒泡


    IP属地:广东来自Android客户端2楼2025-12-19 07:57
    回复
      2026-01-31 02:50:41
      广告
      不感兴趣
      开通SVIP免广告
      5060跑deepseek……你就别折磨它了,跑跑其他的还行,跑这种语言Ai属实是难为它了


      IP属地:云南来自Android客户端3楼2025-12-19 09:19
      收起回复
        因为他用的是内存而非显存,显存才快,内存慢


        IP属地:浙江来自iPhone客户端4楼2025-12-19 09:41
        回复
          你用啥部署的,咋全跑到内存去了


          IP属地:四川来自iPhone客户端5楼2025-12-19 13:12
          收起回复
            一眼没部署好,你得用gpu推理,把模型加载到显存里面


            IP属地:陕西来自Android客户端6楼2025-12-19 13:44
            收起回复
              另外其实本地部署模型就只是玩具,真想玩还是得云端那些模型,可以去看看硅基流动 火山方舟等等平台,都有免费额度的满血api


              IP属地:陕西来自Android客户端7楼2025-12-19 14:55
              收起回复
                看一下页面的上下文缓存是不是太大了,我5060Ti16g跑ds-qwen-14b-q4如果超显存了就是一秒三四字,减一点就可以比眼睛看得快了


                IP属地:浙江来自Android客户端8楼2025-12-19 15:17
                收起回复
                  2026-01-31 02:44:41
                  广告
                  不感兴趣
                  开通SVIP免广告
                  看了下ollama现在似乎已经有了云端模型,其实你直接调用云端大模型更好,比如deepseekv3.2或者gemini 3 flash这些,每周都有免费额度,除了gemini 3 pro算是高级请求次数比较少以外别的能用的应该都挺多的


                  IP属地:陕西来自Android客户端9楼2025-12-19 15:37
                  收起回复
                    部署的问题吧,为什么显存都没咋工作啊?


                    IP属地:山东来自Android客户端10楼2025-12-20 02:26
                    回复
                      网页链接


                      IP属地:湖北来自iPhone客户端12楼2025-12-20 23:03
                      回复
                        冒泡


                        IP属地:广东来自Android客户端13楼2025-12-21 03:36
                        回复
                          评论中,全是专业术语。


                          IP属地:北京来自Android客户端14楼2025-12-31 07:18
                          回复