deepseek吧 关注:136,268贴子:377,697

『深度测评』市面主流国产模型横评

只看楼主收藏回复

经历了长达八天的努力,一共100道题的测试,最终结果终于出来了。期间楼主收到了不少朋友的支持和关心,不断鼓励着楼主继续做下去,在这里楼主谢谢大家!本来是想将权威加在标题里面的,但由于最近的环境,楼主就在简介里提一嘴吧😊诺亚镇楼


IP属地:江苏来自手机贴吧1楼2025-08-22 09:36回复
    楼主的测试平台是cherry studio,默认设置,除了第二轮外不开联网,若有思考模式,默认最大思维链,如果模型开始回答效果不好,楼主人会给予两次机会回答,最好的一次作为成绩测试下来少一点的模型花了将近50万token,测试不易,希望大家多多点赞,觉得我的帖子质量高的话,可以选择关注我


    IP属地:江苏来自手机贴吧2楼2025-08-22 09:40
    收起回复
      2026-01-17 08:29:49
      广告
      不感兴趣
      开通SVIP免广告
      当然,这里楼主也斗胆向吧务提名这个帖子为精华帖,毕竟吧里的测评最近的貌似还是二月份的,毕竟信息是有时效性的,楼主想要让小白迅速了解到每个模型的优点和缺点,于是就决定做这个测试。如果吧务们觉得这帖子质量很高的话,希望可以给一个精华帖的名额。废话不多说,第一轮测试开始


      IP属地:江苏来自手机贴吧3楼2025-08-22 09:43
      回复
        第一轮测试,指令遵循&输出内容控制。如图所示,gemini作为客串模型略微领先之外,deepseek,doubao,hunyuan的成绩都还不错。其他的模型分数都差不多,基本上都在70分左右,属于是日常可以使用的情况


        IP属地:江苏来自手机贴吧5楼2025-08-22 09:47
        回复
          第二轮测试,事实性&幻觉控制,这里楼主有必要先提一下,这个测试的比较早,deepseek所以测试的模型依旧是r1,v3.1是楼主差不多要完成测评的时候更新的,在这里楼主也花了一些时间去复测一遍,发现v3.1在这一轮能多拿两,三分(每题一分,满分十分),由于数据太多,并且已经做了图表,就不高兴再改数据了,请大家见谅


          IP属地:江苏来自手机贴吧6楼2025-08-22 09:53
          回复
            第二轮测试,楼主有必要提一嘴,这里是开启联网模式的,如果模型没有内置搜索功能的话,就统一开启bing搜索,有些模型的自带搜索出来的结果很差,楼主就给了它们使用bing搜索的机会


            IP属地:江苏来自手机贴吧7楼2025-08-22 09:55
            回复
              有些模型的官网表现我也测了,qwen,doubao的官网搜索不如调用API开联网搜索


              IP属地:江苏来自手机贴吧8楼2025-08-22 09:57
              回复
                楼主先打把游戏,等一会儿再更


                IP属地:江苏来自手机贴吧9楼2025-08-22 10:08
                回复
                  2026-01-17 08:23:49
                  广告
                  不感兴趣
                  开通SVIP免广告
                  接下来的是第三轮测试,中文知识&阅读理解,这里楼主选了多个学科客观题和短文问答,选取了今年新课标一卷的语文古诗题,江苏卷物理的压轴题作为难题加入测试中,并根据答案中的评分点进行评分,并且按比例转化为每题小分


                  IP属地:江苏来自手机贴吧10楼2025-08-22 10:31
                  回复
                    结果测评的结果十分令人意外呢,gemini2.5pro表现的是不如国产模型的,所以说不要小瞧我们小镇做题家呀


                    IP属地:江苏来自手机贴吧11楼2025-08-22 10:32
                    收起回复
                      第四轮是中英双语翻译,一共十题,如图所示,参与此轮测试的模型分差很小,几乎没有什么太大的差距


                      IP属地:江苏来自手机贴吧12楼2025-08-22 10:37
                      回复
                        第五轮是逻辑&数学推理,这一轮的表现除了minimax思考时间过长,楼主尝试了三次之后没有任何结果,于是取消它这一轮的资格。大部分的国产模型水平都是相近的


                        IP属地:江苏来自手机贴吧13楼2025-08-22 10:40
                        回复
                          至于第六轮,代码生成与修错(编程),是目前唯一一个两极分化的测试,这里也是楼主花的时间最长的地方。这里楼主的设置是模型如果默认有code特化的模型就是用特化模型。一开始楼主用的是deepseek-r1,后来发现有一个专门用于编程的模型deepseek-coder,结果分数大差不差。豆包一开始用的是1.5pro,分数表现跟deepseek差不太多,后来换成1.6thinking分数显著提升(毕竟是相差了半年的模型,要是没有明显的进步的话,那就完了)qwen方面一开始楼主用的是参数量最大的,结果到了第4题都完成不了测试(即0分),后来换成qwen3-coder模型就好多了。


                          IP属地:江苏来自手机贴吧14楼2025-08-22 10:45
                          回复
                            下面是第七轮,多体裁写作测试,这里要求的文体有:议论文,说明文,记叙文,营销宣传文,现代诗歌,十四行诗,绯句,小说,散文,微小说,还有话剧。这也是十分全面了


                            IP属地:江苏来自手机贴吧15楼2025-08-22 10:48
                            回复
                              2026-01-17 08:17:49
                              广告
                              不感兴趣
                              开通SVIP免广告
                              测试下来的结果也是大差不差。当然这里楼主有必要先提一下deepseek-r1的表现,因为它生成的文本带有事实性的错误和幻觉,因此,在议论文和说明文中都被判了零分,新更新的模型有效地减少了这一情况的发生,如果加上这四分,deepseek就能到正常的水平


                              IP属地:江苏来自手机贴吧16楼2025-08-22 10:52
                              回复