前提:现在api的token用起来有一点快,就想着能不能本地部署一个模型,之前用过一些小模型本地部署,还是有点捞了,最近阿里在除夕的时候才发布的Qwen3.5,看了一些性能榜单和部署评价,其中的小模型和moe的模型实测效果很不错就试了一下。
配置:32G内存ddr5 + 5070ti 显卡 16G显存
试用模型:Qwen3.5 35B-A3B (35B参数量,激活量3B)、Qwen3.5 9B (使用的Lm Studio,并且看情况关闭思考)
两个都是下载的已经heretic(破限的)模型,所以预设中可以不用破限
实际效果:跑了几张角色卡,可能是我玩的本身也不是很多,35B-A3B模型的反馈感觉比我之前用ds3.2的要好
,八股文情况等个人觉得可以接受,速度上也比较快,一秒65token左右,9B的模型速度更快,但是效果我个人感觉是不如35B,如果有时间会做一个教程
配置:32G内存ddr5 + 5070ti 显卡 16G显存
试用模型:Qwen3.5 35B-A3B (35B参数量,激活量3B)、Qwen3.5 9B (使用的Lm Studio,并且看情况关闭思考)
两个都是下载的已经heretic(破限的)模型,所以预设中可以不用破限
实际效果:跑了几张角色卡,可能是我玩的本身也不是很多,35B-A3B模型的反馈感觉比我之前用ds3.2的要好


阿良









