【图片】『深度测评』市面主流国产模型横评【deepseek吧】

01月17日漏签0天

deepseek吧关注：136,268贴子：377,697

1 2 3 下一页尾页
52回复贴，共3页
，跳到页

<返回deepseek吧

『深度测评』市面主流国产模型横评

只看楼主收藏回复

经历了长达八天的努力，一共100道题的测试，最终结果终于出来了。期间楼主收到了不少朋友的支持和关心，不断鼓励着楼主继续做下去，在这里楼主谢谢大家！本来是想将权威加在标题里面的，但由于最近的环境，楼主就在简介里提一嘴吧😊诺亚镇楼

送TA礼物

IP属地:江苏

来自手机贴吧1楼2025-08-22 09:36回复

楼主的测试平台是cherry studio，默认设置，除了第二轮外不开联网，若有思考模式，默认最大思维链，如果模型开始回答效果不好，楼主人会给予两次机会回答，最好的一次作为成绩

测试下来少一点的模型花了将近50万token，测试不易，希望大家多多点赞，觉得我的帖子质量高的话，可以选择关注我

IP属地:江苏

来自手机贴吧2楼2025-08-22 09:40

收起回复

不感兴趣

开通SVIP免广告

当然，这里楼主也斗胆向吧务提名这个帖子为精华帖，毕竟吧里的测评最近的貌似还是二月份的，毕竟信息是有时效性的，楼主想要让小白迅速了解到每个模型的优点和缺点，于是就决定做这个测试。如果吧务们觉得这帖子质量很高的话，希望可以给一个精华帖的名额。废话不多说，第一轮测试开始

IP属地:江苏

来自手机贴吧3楼2025-08-22 09:43

第一轮测试，指令遵循&输出内容控制。如图所示，gemini作为客串模型略微领先之外，deepseek，doubao，hunyuan的成绩都还不错。其他的模型分数都差不多，基本上都在70分左右，属于是日常可以使用的情况

IP属地:江苏

来自手机贴吧5楼2025-08-22 09:47

第二轮测试，事实性&幻觉控制，这里楼主有必要先提一下，这个测试的比较早，deepseek所以测试的模型依旧是r1，v3.1是楼主差不多要完成测评的时候更新的，在这里楼主也花了一些时间去复测一遍，发现v3.1在这一轮能多拿两，三分（每题一分，满分十分），由于数据太多，并且已经做了图表，就不高兴再改数据了，请大家见谅

IP属地:江苏

来自手机贴吧6楼2025-08-22 09:53

第二轮测试，楼主有必要提一嘴，这里是开启联网模式的，如果模型没有内置搜索功能的话，就统一开启bing搜索，有些模型的自带搜索出来的结果很差，楼主就给了它们使用bing搜索的机会

IP属地:江苏

来自手机贴吧7楼2025-08-22 09:55

有些模型的官网表现我也测了，qwen，doubao的官网搜索不如调用API开联网搜索

IP属地:江苏

来自手机贴吧8楼2025-08-22 09:57

楼主先打把游戏，等一会儿再更

IP属地:江苏

来自手机贴吧9楼2025-08-22 10:08

不感兴趣

开通SVIP免广告

接下来的是第三轮测试，中文知识&阅读理解，这里楼主选了多个学科客观题和短文问答，选取了今年新课标一卷的语文古诗题，江苏卷物理的压轴题作为难题加入测试中，并根据答案中的评分点进行评分，并且按比例转化为每题小分

IP属地:江苏

来自手机贴吧10楼2025-08-22 10:31

结果测评的结果十分令人意外呢，gemini2.5pro表现的是不如国产模型的，所以说不要小瞧我们小镇做题家呀

！

IP属地:江苏

来自手机贴吧11楼2025-08-22 10:32

收起回复

第四轮是中英双语翻译，一共十题，如图所示，参与此轮测试的模型分差很小，几乎没有什么太大的差距

IP属地:江苏

来自手机贴吧12楼2025-08-22 10:37

第五轮是逻辑&数学推理，这一轮的表现除了minimax思考时间过长，楼主尝试了三次之后没有任何结果，于是取消它这一轮的资格。大部分的国产模型水平都是相近的

IP属地:江苏

来自手机贴吧13楼2025-08-22 10:40

至于第六轮，代码生成与修错（编程），是目前唯一一个两极分化的测试，这里也是楼主花的时间最长的地方。这里楼主的设置是模型如果默认有code特化的模型就是用特化模型。一开始楼主用的是deepseek-r1，后来发现有一个专门用于编程的模型deepseek-coder，结果分数大差不差。豆包一开始用的是1.5pro，分数表现跟deepseek差不太多，后来换成1.6thinking分数显著提升（毕竟是相差了半年的模型，要是没有明显的进步的话，那就完了）qwen方面一开始楼主用的是参数量最大的，结果到了第4题都完成不了测试（即0分），后来换成qwen3-coder模型就好多了。

IP属地:江苏

来自手机贴吧14楼2025-08-22 10:45

下面是第七轮，多体裁写作测试，这里要求的文体有：议论文，说明文，记叙文，营销宣传文，现代诗歌，十四行诗，绯句，小说，散文，微小说，还有话剧。这也是十分全面了

IP属地:江苏

来自手机贴吧15楼2025-08-22 10:48

不感兴趣

开通SVIP免广告

测试下来的结果也是大差不差。当然这里楼主有必要先提一下deepseek-r1的表现，因为它生成的文本带有事实性的错误和幻觉，因此，在议论文和说明文中都被判了零分，新更新的模型有效地减少了这一情况的发生，如果加上这四分，deepseek就能到正常的水平

IP属地:江苏

来自手机贴吧16楼2025-08-22 10:52

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 3 下一页尾页
52回复贴，共3页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

『深度测评』市面主流国产模型横评

登录百度账号

扫二维码下载贴吧客户端