今天试了一下新出的千问qaq plus模型。
是真的蛮顶的,可以预感是32B规模里的最强模型了。
妄图测试一下它的代码能力,但确实不太行。
俄罗斯方块写不出来,完全没法儿玩,编程能力是弱于r1的,不过也符合预期,毕竟只有32b。
理解能力目测非常强,非常能抓住重点,甚至感觉隐隐能超过gemini flash。
不过还说不准,需要详细的测试。
有一说一,现在模型实在太难测了,
模型水平到达一定程度后,除了ai陷阱题,几乎休想通过一个简单的问题快速判断出水平高下。直接看benchmark也非常有局限性。
不过不管怎么说,这个模型在可部署的模型里妥妥排第一了,毫无疑问的。但是本人3060电脑显存不够,就不部署了。
想看后续qaq测评的扣1。