deepseek吧 关注:136,770贴子:383,280

回复:准备评测一下主流的模型,大伙有兴趣么

只看楼主收藏回复

每道题10分,句子通畅且有篮球得5分,篮球在结尾的再得5分,满分一百:
满分选手:
gpt-o1;
Claude 3.5 Sonnet;
deepseek-r1;
50-100分选手(都有篮球,但是有的没放最后):
gemini-2.0-pro,95分
deepseek-v3,95分
gpt-4o-mini,85分
Llama-3.3-70B,80分
deepseek-70B,80分
qwen-vl-max-latest,60分
50分选手(都有篮球,位置全放错了):
Doubao-1.5-lite;
deepseek32B,14B,1.5B;
0-50分(有的句子有问题或没有篮球):
deepseek-7B,8B;
0分:
Doubao-vision-pro,写了篇散文。


IP属地:陕西21楼2025-02-16 11:36
回复
    第二题总结:
    顶尖组,谷歌没拿满分丢人了,但是分也不低。
    两个70B模型战况焦灼。
    两个视觉模型,豆包被千问薄纱,豆包的遵循指令能力不太行啊。
    deepseek1.5继续上大分,作为一个1G的超迷你模型,分数现在高得离谱。
    Doubao-1.5-lite想和gpt-4o-mini对标,但是分数差了点,不过也不错了。


    IP属地:陕西来自Android客户端23楼2025-02-16 11:43
    回复
      2026-02-07 23:58:27
      广告
      不感兴趣
      开通SVIP免广告
      第三题 :
      过年时贴福字,要倒着贴寓意着着福到了。为什么工厂没有直接生产倒着的福字呢?
      这一题是超级压力组,大概率是全军覆没,只有o1有一点可能能做对。这一题给顶尖组上点区分度。


      IP属地:陕西24楼2025-02-16 11:50
      收起回复
        果不其然,第三题全军覆没。
        如果非要选一个最好的,则是claude sonnet:
        他已经意识到了:
        同一个"福"字可以正贴也可以倒贴,更加灵活
        但是转眼又说:
        有些场合需要正贴"福"字,如果印制倒"福",用途就会受限
        属于是开窍了但没完全开。
        claude sonnet现在是唯一的赢家。第一题claude 丢分后第三题又挣回来了。


        IP属地:陕西25楼2025-02-16 12:00
        收起回复
          第四题:
          为什么鲁智深不能倒拔垂杨柳而林黛玉却可以?
          这题对T0T1组太简单了,出个放松题给小模型来点区分度吧。


          IP属地:陕西27楼2025-02-16 12:02
          收起回复
            结果:
            deepseek1.5B吓得话都说不清了,胡言乱语。
            deepseek7B,8B,人物都搞不清,也没啥逻辑。
            deepseek14B认识这俩人,但是觉得是自己没看过的情节,然后随便说了点废话。
            Llama-3.3-70b说,鲁智深不能倒拔垂杨柳是因为垂杨柳的根系太深,林黛玉并没有倒拔垂杨柳的故事。相比之下deepseek32B以上就能指出问题的错误了。
            其他模型均能指出错误,或以为我说错了然后按照正确逻辑回答。


            IP属地:陕西28楼2025-02-16 12:10
            收起回复
              赶上直播了


              IP属地:江苏来自Android客户端29楼2025-02-16 12:15
              收起回复
                第五题:请写一个有炫酷UI的贪吃蛇网页程序;
                这一题针对T1级别的模型区分度。


                IP属地:陕西30楼2025-02-16 12:16
                回复
                  2026-02-07 23:52:27
                  广告
                  不感兴趣
                  开通SVIP免广告
                  e速速速速


                  IP属地:山东来自iPhone客户端31楼2025-02-16 12:18
                  回复
                    有意思,收藏了


                    IP属地:四川来自Android客户端34楼2025-02-16 13:15
                    回复
                      火钳刘明


                      IP属地:北京来自Android客户端35楼2025-02-16 13:18
                      回复
                        贪吃蛇结果:
                        gpt-o1:界面炫酷不停变色,没有bug手感很好,审美一般
                        claude 3.5 sonnet:简洁炫酷风,没有bug手感很好
                        gemini-2.0-pro:不算特别炫酷,但审美可以,没有bug手感很好
                        deepseek-r1:审美可以,没有bug手感很好
                        deepseek-v3:审美可以,没有bug手感很好
                        Doubao-vision-pro:有界面但是操作不了,第二次机会正常生成,没有bug但界面略微有点丑
                        qwen-vl-max-latest:正常运行无bug,界面简陋有点丑
                        Doubao-1.5-lite:第一次bug太多,第二次可以正常玩。结束后无法重新开始,界面较为简陋
                        gpt-4o-mini:生成了两次,死亡判定有问题,无法正常玩。界面基本正常但文字有重叠。
                        Llama-3.3-70b:界面非常简陋,无法生成第二个食物,无法重新开始。第二次生成食物正常,无法重新开始。
                        DeepSeek 70B:宇宙星空背景,手感很好,没有Bug。缺点是给蛇加了个炫酷拖影,导致本体位置不好判断。
                        DeepSeek 32B:界面一般,UI位置有一丢丢小bug,其他没有Bug完全正常。
                        DeepSeek 14B:界面很炫酷,但玩不了。第二次生成,界面依然很炫酷,速度贼快根本控制不住,操作正常。
                        DeepSeek 7B,8B,1.5B:7B,8B网页界面没出来,1.5B甚至语法都是错的。


                        IP属地:陕西36楼2025-02-16 13:44
                        回复
                          总结:
                          顶级AI组区分度不大,都没bug。
                          比较惊喜的是v3和14B,v3比同级别设计的又好看又稳定,14B虽然有bug,但是这算是小Bug了,界面非常好看。
                          8B以下代码能力断崖式下跌,1.5B几乎没有编程能力。
                          70B模型,deepseek薄纱Llama-3.3,DeepSeek 70B的界面是最好看的。


                          IP属地:陕西37楼2025-02-16 13:51
                          回复
                            看来,个人电脑已经不好噶钱了。
                            要推行普及个人服务器了。。。再到个人服务器群组。。。


                            IP属地:广东来自Android客户端38楼2025-02-16 15:22
                            回复
                              2026-02-07 23:46:27
                              广告
                              不感兴趣
                              开通SVIP免广告
                              cy


                              IP属地:广东39楼2025-02-16 15:43
                              回复