deepseek吧 关注:136,775贴子:383,349

回复:市面上具有代表性的22款模型深度测评

只看楼主收藏回复


个人感觉Claude不一定是最聪明的,但是是最能体会用户潜台词的模型。

豆包这一题发挥也还行。
总结太多了,大伙看个分儿就行了


IP属地:陕西17楼2025-02-19 10:03
回复

    前五题用处都不大,体现不出智商。
    这题以前是个经典的幻觉,现在基本都修复了。
    deepseek-7B和1.5B实际上不是识别不出来,是话都说不利索。


    IP属地:陕西19楼2025-02-19 10:06
    回复
      2026-02-08 06:23:28
      广告
      不感兴趣
      开通SVIP免广告

      deepseekv3惨败。


      IP属地:陕西20楼2025-02-19 10:08
      收起回复
        然后是两个编程题。休息一会儿,一会儿回来再发。
        程序这玩意儿其实不太好评价,可能模型蛮厉害的,一个疏忽出bug就运行不了了。评价标准也很难制定,待会在家看看,参考一下就行了,还是得自己上手试才能感觉出来。


        IP属地:陕西来自Android客户端21楼2025-02-19 10:11
        回复

          下一题,贪吃蛇


          IP属地:陕西22楼2025-02-19 10:42
          回复




            效果如上


            IP属地:陕西23楼2025-02-19 10:44
            回复
              怎么讲呢,个人感觉写代码最强的还是o1和o3-mini。
              别看o3-mini比r1贵,r1的思考链可费token了,价格其实差不多。
              o1不太划算,太贵了,写代码用o3-mini就很合适
              不够其实大家水平都不差,可以用个便宜的,比如说gpt4o-mini,然后出问题了再拿o3-mini改就挺不错。
              gpt4o-mini感觉是轻量级里代码能力最好的。


              IP属地:陕西24楼2025-02-19 10:58
              回复

                第七题的详细评价。(最后一组写不出来程序,报错)


                IP属地:陕西25楼2025-02-19 10:59
                回复
                  2026-02-08 06:17:28
                  广告
                  不感兴趣
                  开通SVIP免广告

                  题目很长,测试模型遵循指令的能力。


                  IP属地:陕西27楼2025-02-19 11:03
                  回复

                    评分细节很麻烦,估计你们也不想看,给你们看一组好了。
                    其实怎么说呢,分数看整体趋势就好了,意义不是很大。
                    像r1想太多写的太复杂给写崩了。
                    像轻量级组写的UI贼丑,一句不愿意多写,但是人家完成任务了。我只能酌情扣它卷面分


                    IP属地:陕西28楼2025-02-19 11:09
                    回复
                      代码这块感觉,14B以及以下的别用,真的笨,其他的反正都比你强,写出Bug了再找厉害的模型改也来得及。


                      IP属地:陕西29楼2025-02-19 11:11
                      回复
                        而且有的时候是每个模型有每个模型爱出的bug,多备几个某一个出问题了再让另一个解决就行了。两道题只能评估整体趋势,实在评价不了同一组里谁最好。


                        IP属地:陕西来自Android客户端30楼2025-02-19 11:12
                        回复

                          看来豆包vision的幻觉也挺强。不过,相同情况下,幻觉强其实对应的创造力也会更强。


                          IP属地:陕西31楼2025-02-19 11:15
                          回复


                            IP属地:陕西32楼2025-02-19 17:19
                            回复
                              2026-02-08 06:11:28
                              广告
                              不感兴趣
                              开通SVIP免广告
                              测测grok3


                              IP属地:内蒙古来自Android客户端33楼2025-02-19 18:38
                              收起回复