deepseek吧 关注:136,775贴子:383,318

准备评测一下主流的模型,大伙有兴趣么

取消只看楼主收藏回复

包括deepseek r1的各个版本,顶级模型包括gpt,claude,gemini,Llama3.3,以及通义千问2.5和豆包新出的有意思的模型。


IP属地:陕西来自Android客户端1楼2025-02-16 09:45回复
    首先是参赛者介绍。


    IP属地:陕西2楼2025-02-16 09:52
    回复
      2026-02-08 04:05:10
      广告
      不感兴趣
      开通SVIP免广告
      deepseek系列全员,大伙很熟悉了,就不介绍了。


      IP属地:陕西3楼2025-02-16 09:52
      回复
        顶级AI组:
        gpt o3,代表gpt出战的顶级模型。
        claude-3-5-sonnet,代表Anthropic出战的顶级模型
        gemini-2.0-pro,代表谷歌出战的顶级模型
        这几个模型理应全方位的强,对标deepseekr1 满血版。


        IP属地:陕西5楼2025-02-16 09:57
        收起回复
          视觉组:
          视觉模型除了gpt和claude这种顶级模型之外,都被国内卷完了。
          下面两个是目前最顶的视觉理解模型。
          Doubao-vision-pro  豆包家的视觉理解模型
          qwen-vl-max-latest  通义千问家的视觉理解模型
          前面这两个是互相对标的,有视觉功能,语言能力还很强,对标deepseekv3
          qwen2.5-vl-72b  通义千问家的,视觉理解能力强,语言能力可能会弱一点。
          但是我们只测语言能力


          IP属地:陕西来自Android客户端7楼2025-02-16 10:16
          回复
            特色组
            Doubao-1.5-lite 便宜到离谱的轻量化模型。
            大概什么概念呢,每M的token,v3的api是输入两元,输出8元,以便宜著称。
            而这个模型输入3毛,输出6毛,号称和GPT-4omini对标
            Llama-3.3-70B-Instruct,70B对标gpt4的模型,说是很厉害其实我也没试过,待会儿测一下。
            GPT-4omini到时候拉进来一起测,对标Doubao-1.5-lite
            我没有gpt4的api,就拿deepseek 70B和Llama-3.3-70B-Instruct对比。


            IP属地:陕西8楼2025-02-16 10:19
            回复
              从预期能力从高到低如下:
              T0顶尖模型组:
              gpt o3;
              claude-3-5-sonnet;
              gemini-2.0-pro;
              deepseek-r1;
              T1通用模型组:
              deepseekv3;
              Doubao-vision-pro;
              qwen-vl-max-latest;
              T2超级迷你模型组:
              Doubao-1.5-lite
              GPT-4omini
              T?组,实力不详有待定位:
              Llama-3.3-70B-Instruct;
              deepseek-70B;(以上两个对标)
              GPT-4omini;
              deepseek1.5B到32B;
              qwen2.5-vl-72b;


              IP属地:陕西11楼2025-02-16 10:31
              收起回复
                目前参赛选手就选这些了,先吃饭去闲了再更。


                IP属地:陕西12楼2025-02-16 10:32
                回复
                  2026-02-08 03:59:10
                  广告
                  不感兴趣
                  开通SVIP免广告
                  gpto1也忒贵了,每百万字523块。比豆包贵了872倍。
                  作为惩罚,别的模型打错了,可以多打几次看正确率,但是4o答错直接扣分


                  IP属地:陕西来自Android客户端15楼2025-02-16 10:58
                  回复
                    第一题:
                    strawberry的拼写里有几个r。
                    第一题先给AI们上个强度,许多模型都会有两个r的幻觉,而且有的模型特别犟,怎么都说不懂。


                    IP属地:陕西17楼2025-02-16 11:07
                    回复
                      strawberry的拼写里有几个r。
                      **直接答对的有:
                      gpt o1;
                      deepseek-r1;
                      deepseek-v3;
                      deepseek-14B;
                      deepseek-1.5B;
                      **刷新之后能答对的有:
                      deepseek-70B
                      deepseek-32B
                      deepseek-8B
                      其他的都死不悔改
                      有些出人意料,deepseek太猛了。
                      除了deepseek-7B死不悔改,deepseek-1.5B竟然一次答对。
                      真不愧是带思维链的推理模型啊。
                      claude-sonnet和gemini-2.0-pro两个顶级模型竟然错了而且死不悔改,但是claude-sonnet是能答对的。


                      IP属地:陕西18楼2025-02-16 11:16
                      收起回复
                        第二题,请写出以篮球结尾的十个句子。


                        IP属地:陕西19楼2025-02-16 11:18
                        回复
                          每道题10分,句子通畅且有篮球得5分,篮球在结尾的再得5分,满分一百:
                          满分选手:
                          gpt-o1;
                          Claude 3.5 Sonnet;
                          deepseek-r1;
                          50-100分选手(都有篮球,但是有的没放最后):
                          gemini-2.0-pro,95分
                          deepseek-v3,95分
                          gpt-4o-mini,85分
                          Llama-3.3-70B,80分
                          deepseek-70B,80分
                          qwen-vl-max-latest,60分
                          50分选手(都有篮球,位置全放错了):
                          Doubao-1.5-lite;
                          deepseek32B,14B,1.5B;
                          0-50分(有的句子有问题或没有篮球):
                          deepseek-7B,8B;
                          0分:
                          Doubao-vision-pro,写了篇散文。


                          IP属地:陕西21楼2025-02-16 11:36
                          回复
                            第二题总结:
                            顶尖组,谷歌没拿满分丢人了,但是分也不低。
                            两个70B模型战况焦灼。
                            两个视觉模型,豆包被千问薄纱,豆包的遵循指令能力不太行啊。
                            deepseek1.5继续上大分,作为一个1G的超迷你模型,分数现在高得离谱。
                            Doubao-1.5-lite想和gpt-4o-mini对标,但是分数差了点,不过也不错了。


                            IP属地:陕西来自Android客户端23楼2025-02-16 11:43
                            回复
                              2026-02-08 03:53:10
                              广告
                              不感兴趣
                              开通SVIP免广告
                              第三题 :
                              过年时贴福字,要倒着贴寓意着着福到了。为什么工厂没有直接生产倒着的福字呢?
                              这一题是超级压力组,大概率是全军覆没,只有o1有一点可能能做对。这一题给顶尖组上点区分度。


                              IP属地:陕西24楼2025-02-16 11:50
                              收起回复