deepseek吧 关注:136,770贴子:383,280

回复:市面上具有代表性的22款模型深度测评

只看楼主收藏回复

Gemini2flash thinking怎么没有,还有Gemini1.5Pro是世界记忆力最强的模型,综合多模态功能也强的离谱,有次我一次性上传了15篇论文PDF,让他整合文献内容并均匀引用到每个论文的内容,只有Gemini1.5能做到,其他模型最多引用一两篇,或者全篇引用一篇作为主要思路


IP属地:上海来自Android客户端116楼2025-02-26 20:57
收起回复
    给你加油来啦


    IP属地:浙江来自iPhone客户端118楼2025-02-28 06:14
    回复
      2026-02-07 23:58:04
      广告
      不感兴趣
      开通SVIP免广告
      grok3编程能力测了一下,只能说一言难尽。
      大概和r1差不多的水平,不好用。
      有一个bug很多很多遍都没有解决掉,还有方块的旋转系统,怎么都调试不好。
      目前官方api没有出来,第三方的不太好用,现在次数耗的差不多了,也就不想继续测了。
      最终没有调试出一个能玩的版本,优点是ui做的确实还不错,大概水平和r1差不多吧。


      IP属地:陕西来自Android客户端120楼2025-03-05 12:55
      收起回复
        今天试了一下新出的千问qaq plus模型。
        是真的蛮顶的,可以预感是32B规模里的最强模型了。
        妄图测试一下它的代码能力,但确实不太行。
        俄罗斯方块写不出来,完全没法儿玩,编程能力是弱于r1的,不过也符合预期,毕竟只有32b。
        理解能力目测非常强,非常能抓住重点,甚至感觉隐隐能超过gemini flash。
        不过还说不准,需要详细的测试。
        有一说一,现在模型实在太难测了,
        模型水平到达一定程度后,除了ai陷阱题,几乎休想通过一个简单的问题快速判断出水平高下。直接看benchmark也非常有局限性。
        不过不管怎么说,这个模型在可部署的模型里妥妥排第一了,毫无疑问的。但是本人3060电脑显存不够,就不部署了。
        想看后续qaq测评的扣1。


        IP属地:陕西来自Android客户端121楼2025-03-07 05:41
        收起回复
          好帖


          IP属地:越南来自Android客户端122楼2025-03-07 10:56
          回复
            大佬太强了


            IP属地:安徽123楼2025-03-07 13:13
            回复
              1111111


              IP属地:广东124楼2025-03-11 23:12
              回复