deepseek吧 关注:136,773贴子:383,294

准备评测一下主流的模型,大伙有兴趣么

只看楼主收藏回复

包括deepseek r1的各个版本,顶级模型包括gpt,claude,gemini,Llama3.3,以及通义千问2.5和豆包新出的有意思的模型。


IP属地:陕西来自Android客户端1楼2025-02-16 09:45回复
    首先是参赛者介绍。


    IP属地:陕西2楼2025-02-16 09:52
    回复
      2026-02-08 01:13:17
      广告
      不感兴趣
      开通SVIP免广告
      deepseek系列全员,大伙很熟悉了,就不介绍了。


      IP属地:陕西3楼2025-02-16 09:52
      回复
        哟直播


        IP属地:陕西来自iPhone客户端4楼2025-02-16 09:53
        收起回复
          顶级AI组:
          gpt o3,代表gpt出战的顶级模型。
          claude-3-5-sonnet,代表Anthropic出战的顶级模型
          gemini-2.0-pro,代表谷歌出战的顶级模型
          这几个模型理应全方位的强,对标deepseekr1 满血版。


          IP属地:陕西5楼2025-02-16 09:57
          收起回复
            视觉组:
            视觉模型除了gpt和claude这种顶级模型之外,都被国内卷完了。
            下面两个是目前最顶的视觉理解模型。
            Doubao-vision-pro  豆包家的视觉理解模型
            qwen-vl-max-latest  通义千问家的视觉理解模型
            前面这两个是互相对标的,有视觉功能,语言能力还很强,对标deepseekv3
            qwen2.5-vl-72b  通义千问家的,视觉理解能力强,语言能力可能会弱一点。
            但是我们只测语言能力


            IP属地:陕西来自Android客户端7楼2025-02-16 10:16
            回复
              特色组
              Doubao-1.5-lite 便宜到离谱的轻量化模型。
              大概什么概念呢,每M的token,v3的api是输入两元,输出8元,以便宜著称。
              而这个模型输入3毛,输出6毛,号称和GPT-4omini对标
              Llama-3.3-70B-Instruct,70B对标gpt4的模型,说是很厉害其实我也没试过,待会儿测一下。
              GPT-4omini到时候拉进来一起测,对标Doubao-1.5-lite
              我没有gpt4的api,就拿deepseek 70B和Llama-3.3-70B-Instruct对比。


              IP属地:陕西8楼2025-02-16 10:19
              回复
                从预期能力从高到低如下:
                T0顶尖模型组:
                gpt o3;
                claude-3-5-sonnet;
                gemini-2.0-pro;
                deepseek-r1;
                T1通用模型组:
                deepseekv3;
                Doubao-vision-pro;
                qwen-vl-max-latest;
                T2超级迷你模型组:
                Doubao-1.5-lite
                GPT-4omini
                T?组,实力不详有待定位:
                Llama-3.3-70B-Instruct;
                deepseek-70B;(以上两个对标)
                GPT-4omini;
                deepseek1.5B到32B;
                qwen2.5-vl-72b;


                IP属地:陕西11楼2025-02-16 10:31
                收起回复
                  2026-02-08 01:07:17
                  广告
                  不感兴趣
                  开通SVIP免广告
                  目前参赛选手就选这些了,先吃饭去闲了再更。


                  IP属地:陕西12楼2025-02-16 10:32
                  回复


                    IP属地:江苏来自Android客户端14楼2025-02-16 10:57
                    回复
                      gpto1也忒贵了,每百万字523块。比豆包贵了872倍。
                      作为惩罚,别的模型打错了,可以多打几次看正确率,但是4o答错直接扣分


                      IP属地:陕西来自Android客户端15楼2025-02-16 10:58
                      回复


                        IP属地:贵州来自Android客户端16楼2025-02-16 10:58
                        回复
                          第一题:
                          strawberry的拼写里有几个r。
                          第一题先给AI们上个强度,许多模型都会有两个r的幻觉,而且有的模型特别犟,怎么都说不懂。


                          IP属地:陕西17楼2025-02-16 11:07
                          回复
                            strawberry的拼写里有几个r。
                            **直接答对的有:
                            gpt o1;
                            deepseek-r1;
                            deepseek-v3;
                            deepseek-14B;
                            deepseek-1.5B;
                            **刷新之后能答对的有:
                            deepseek-70B
                            deepseek-32B
                            deepseek-8B
                            其他的都死不悔改
                            有些出人意料,deepseek太猛了。
                            除了deepseek-7B死不悔改,deepseek-1.5B竟然一次答对。
                            真不愧是带思维链的推理模型啊。
                            claude-sonnet和gemini-2.0-pro两个顶级模型竟然错了而且死不悔改,但是claude-sonnet是能答对的。


                            IP属地:陕西18楼2025-02-16 11:16
                            收起回复
                              2026-02-08 01:01:17
                              广告
                              不感兴趣
                              开通SVIP免广告
                              第二题,请写出以篮球结尾的十个句子。


                              IP属地:陕西19楼2025-02-16 11:18
                              回复