deepseek吧 关注:136,775贴子:383,295

回复:市面上具有代表性的22款模型深度测评

只看楼主收藏回复

大佬厉害的


IP属地:广西来自iPhone客户端34楼2025-02-19 19:54
回复

    这题也看个乐子,脑筋急转弯,人都不一定能答对。
    不过也能看出来,deepseek r1的推理能力真强,70B模型都可以猜到


    IP属地:陕西35楼2025-02-19 20:59
    收起回复
      2026-02-08 05:06:58
      广告
      不感兴趣
      开通SVIP免广告

      数学推理能力测试。
      这一题o1消耗了我6美元的token,结果啥都没输出。我还专门充值了一个网站按回答次数收费,然后o1还是答不出来。服了。
      claude计算精度比较差了,应该是因为模型很久没出新的了。
      deepseek计算精度非常在线。
      豆包计算精度也很高。


      IP属地:陕西36楼2025-02-19 21:02
      回复
        上一题要用牛顿迭代法做,大家做的都还可。
        豆包感觉对这种问题蛮擅长的,加上豆包的视觉模型很强,可以平替小猿搜题了,初高中题给你整的明明白白


        IP属地:陕西37楼2025-02-19 21:04
        收起回复

          本来想出个简单题,别太难为轻量级模型了,结果没想到,现在模型这么强,全答对了。


          IP属地:陕西38楼2025-02-19 21:06
          收起回复
            1.5B模型能算请牛顿迭代法,就很逆天。要知道这玩意儿话都说不清,让他生成文章给我一堆乱码,结果数学题做的贼6。
            deepseek系列严重偏科啊。


            IP属地:陕西39楼2025-02-19 21:07
            回复
              deepseek-r1-1.5B,我愿称之为模型界的边牧。
              智商在线,但不会说话。写文章写出来一堆乱码,但是写数学能算清牛顿迭代法,我真是服了。
              不过边牧到底不是人,智商虽然可以,也是和狗比的,没什么实用价值。


              IP属地:陕西40楼2025-02-19 21:10
              回复

                这题测试知识储备的。
                又到了deepseek 1.5B的高光时刻了,话都说不清,硬是推导出了科里奥利力的存在,十分逆天。


                IP属地:陕西41楼2025-02-19 21:12
                收起回复
                  2026-02-08 05:00:58
                  广告
                  不感兴趣
                  开通SVIP免广告

                  这题评价麻烦的要死,直接给分吧。
                  deepseek-r1的高光时刻,效果断崖式领先,不愧是推理模型


                  IP属地:陕西42楼2025-02-19 21:15
                  回复

                    作诗题


                    IP属地:陕西43楼2025-02-19 21:29
                    回复


                      我这文学素养一般,看着差不多就给满分了。分数不满都是明显有缺点的,大家自己看吧


                      IP属地:陕西44楼2025-02-19 21:31
                      收起回复

                        写作题deepseek是真的不擅长,非常爱脑补,幻觉很严重。gemini对这种题就非常擅长。


                        IP属地:陕西45楼2025-02-19 21:32
                        收起回复


                          个人认为Gemini是文章写的最好的,你看这写的,看着内容很充实,结合题目一看确实啥都没干,不会给你瞎编写有的没的凑数。


                          IP属地:陕西46楼2025-02-19 21:36
                          收起回复

                            这题的评测是真费劲,翻译最强的也是Gemini,deepseek也很擅长翻译,推理模型会去思考用什么单词合适。
                            评分我是用旗舰组的AI看了选手的翻译和我的评分标准之后,让他们相互讨论出来,本人的英语水平实在有限
                            以下是Gemini的翻译


                            IP属地:陕西47楼2025-02-19 21:49
                            回复
                              2026-02-08 04:54:58
                              广告
                              不感兴趣
                              开通SVIP免广告
                              这么一看ds偏科严重 不过1.5B这么离谱的吗,我之前用了一下这些蒸馏模型,一直到32B才能勉强把话说利索


                              IP属地:湖南来自Android客户端48楼2025-02-19 23:56
                              收起回复