【图片】回复：市面上具有代表性的22款模型深度测评【deepseek吧】

deepseek吧关注：136,770贴子：383,280

首页上一页 1 2 3 4 5 6 7 8
225回复贴，共8页
，跳到页

回复：市面上具有代表性的22款模型深度测评

Gemini2flash thinking怎么没有，还有Gemini1.5Pro是世界记忆力最强的模型，综合多模态功能也强的离谱，有次我一次性上传了15篇论文PDF，让他整合文献内容并均匀引用到每个论文的内容，只有Gemini1.5能做到，其他模型最多引用一两篇，或者全篇引用一篇作为主要思路

IP属地:上海

来自Android客户端116楼2025-02-26 20:57

收起回复

给你加油来啦

IP属地:浙江

来自iPhone客户端118楼2025-02-28 06:14

不感兴趣

开通SVIP免广告

grok3编程能力测了一下，只能说一言难尽。
大概和r1差不多的水平，不好用。
有一个bug很多很多遍都没有解决掉，还有方块的旋转系统，怎么都调试不好。
目前官方api没有出来，第三方的不太好用，现在次数耗的差不多了，也就不想继续测了。
最终没有调试出一个能玩的版本，优点是ui做的确实还不错，大概水平和r1差不多吧。

IP属地:陕西

来自Android客户端120楼2025-03-05 12:55

收起回复

今天试了一下新出的千问qaq plus模型。
是真的蛮顶的，可以预感是32B规模里的最强模型了。
妄图测试一下它的代码能力，但确实不太行。
俄罗斯方块写不出来，完全没法儿玩，编程能力是弱于r1的，不过也符合预期，毕竟只有32b。
理解能力目测非常强，非常能抓住重点，甚至感觉隐隐能超过gemini flash。
不过还说不准，需要详细的测试。
有一说一，现在模型实在太难测了，
模型水平到达一定程度后，除了ai陷阱题，几乎休想通过一个简单的问题快速判断出水平高下。直接看benchmark也非常有局限性。
不过不管怎么说，这个模型在可部署的模型里妥妥排第一了，毫无疑问的。但是本人3060电脑显存不够，就不部署了。
想看后续qaq测评的扣1。

IP属地:陕西

来自Android客户端121楼2025-03-07 05:41

收起回复