sillytavern吧 关注:37,961贴子:132,147
  • 10回复贴,共1

最近的Qwen3.5 感觉有一点质的飞跃

只看楼主收藏回复

前提:现在api的token用起来有一点快,就想着能不能本地部署一个模型,之前用过一些小模型本地部署,还是有点捞了,最近阿里在除夕的时候才发布的Qwen3.5,看了一些性能榜单和部署评价,其中的小模型和moe的模型实测效果很不错就试了一下。
配置:32G内存ddr5 + 5070ti 显卡 16G显存
试用模型:Qwen3.5 35B-A3B (35B参数量,激活量3B)、Qwen3.5 9B (使用的Lm Studio,并且看情况关闭思考)
两个都是下载的已经heretic(破限的)模型,所以预设中可以不用破限
实际效果:跑了几张角色卡,可能是我玩的本身也不是很多,35B-A3B模型的反馈感觉比我之前用ds3.2的要好,八股文情况等个人觉得可以接受,速度上也比较快,一秒65token左右,9B的模型速度更快,但是效果我个人感觉是不如35B,如果有时间会做一个教程


IP属地:广东1楼2026-03-10 15:48回复
    比d老师强吗限制会不会很大,我一直用的d老师,正好想试试其他的


    IP属地:广西来自Android客户端2楼2026-03-10 16:30
    收起回复
      2026-03-19 20:40:16
      广告
      不感兴趣
      开通SVIP免广告
      qwen3.5比之前好点,但仍然是benchmaxxed的玩意
      行文还不如gemma,唯一优点是KV缓存巨小
      你16gvram可以用llmfan46/Qwen3.5-27B-heretic-v2的Q4+32K上下文


      IP属地:四川3楼2026-03-10 18:26
      收起回复
        跑出来效果怎么样,先看看


        IP属地:北京来自Android客户端5楼2026-03-11 04:08
        回复
          求教程


          IP属地:广西来自Android客户端6楼2026-03-11 08:38
          回复
            求教程大佬


            IP属地:辽宁来自iPhone客户端7楼2026-03-13 09:42
            回复


              IP属地:湖北来自iPhone客户端8楼2026-03-13 14:30
              回复
                大佬,请问酒馆是通过什么来调用本地部署的模型的?


                IP属地:浙江来自iPhone客户端9楼2026-03-14 13:48
                收起回复