网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
01月17日
漏签
0
天
deepseek吧
关注:
136,268
贴子:
377,697
看贴
图片
吧主推荐
游戏
1
2
3
下一页
尾页
52
回复贴,共
3
页
,跳到
页
确定
<返回deepseek吧
>0< 加载中...
『深度测评』市面主流国产模型横评
只看楼主
收藏
回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
经历了长达八天的努力,一共100道题的测试,最终结果终于出来了。期间楼主收到了不少朋友的支持和关心,不断鼓励着楼主继续做下去,在这里楼主谢谢大家!本来是想将权威加在标题里面的,但由于最近的环境,楼主就在简介里提一嘴吧😊诺亚镇楼
送TA礼物
IP属地:江苏
来自
手机贴吧
1楼
2025-08-22 09:36
回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
楼主的测试平台是cherry studio,默认设置,除了第二轮外不开联网,若有思考模式,默认最大思维链,如果模型开始回答效果不好,楼主人会给予两次机会回答,最好的一次作为成绩
测试下来少一点的模型花了将近50万token,测试不易,希望大家多多点赞,觉得我的帖子质量高的话,可以选择关注我
IP属地:江苏
来自
手机贴吧
2楼
2025-08-22 09:40
回复(3)
收起回复
2026-01-17 08:29:49
广告
不感兴趣
开通SVIP免广告
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
当然,这里楼主也斗胆向吧务提名这个帖子为精华帖,毕竟吧里的测评最近的貌似还是二月份的,毕竟信息是有时效性的,楼主想要让小白迅速了解到每个模型的优点和缺点,于是就决定做这个测试。如果吧务们觉得这帖子质量很高的话,希望可以给一个精华帖的名额。废话不多说,第一轮测试开始
IP属地:江苏
来自
手机贴吧
3楼
2025-08-22 09:43
回复
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
第一轮测试,指令遵循&输出内容控制。如图所示,gemini作为客串模型略微领先之外,deepseek,doubao,hunyuan的成绩都还不错。其他的模型分数都差不多,基本上都在70分左右,属于是日常可以使用的情况
IP属地:江苏
来自
手机贴吧
5楼
2025-08-22 09:47
回复
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
第二轮测试,事实性&幻觉控制,这里楼主有必要先提一下,这个测试的比较早,deepseek所以测试的模型依旧是r1,v3.1是楼主差不多要完成测评的时候更新的,在这里楼主也花了一些时间去复测一遍,发现v3.1在这一轮能多拿两,三分(每题一分,满分十分),由于数据太多,并且已经做了图表,就不高兴再改数据了,请大家见谅
IP属地:江苏
来自
手机贴吧
6楼
2025-08-22 09:53
回复
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
第二轮测试,楼主有必要提一嘴,这里是开启联网模式的,如果模型没有内置搜索功能的话,就统一开启bing搜索,有些模型的自带搜索出来的结果很差,楼主就给了它们使用bing搜索的机会
IP属地:江苏
来自
手机贴吧
7楼
2025-08-22 09:55
回复
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
有些模型的官网表现我也测了,qwen,doubao的官网搜索不如调用API开联网搜索
IP属地:江苏
来自
手机贴吧
8楼
2025-08-22 09:57
回复
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
楼主先打把游戏,等一会儿再更
IP属地:江苏
来自
手机贴吧
9楼
2025-08-22 10:08
回复
收起回复
2026-01-17 08:23:49
广告
不感兴趣
开通SVIP免广告
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
接下来的是第三轮测试,中文知识&阅读理解,这里楼主选了多个学科客观题和短文问答,选取了今年新课标一卷的语文古诗题,江苏卷物理的压轴题作为难题加入测试中,并根据答案中的评分点进行评分,并且按比例转化为每题小分
IP属地:江苏
来自
手机贴吧
10楼
2025-08-22 10:31
回复
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
结果测评的结果十分令人意外呢,gemini2.5pro表现的是不如国产模型的,所以说不要小瞧我们小镇做题家呀
!
IP属地:江苏
来自
手机贴吧
11楼
2025-08-22 10:32
回复(1)
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
第四轮是中英双语翻译,一共十题,如图所示,参与此轮测试的模型分差很小,几乎没有什么太大的差距
IP属地:江苏
来自
手机贴吧
12楼
2025-08-22 10:37
回复
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
第五轮是逻辑&数学推理,这一轮的表现除了minimax思考时间过长,楼主尝试了三次之后没有任何结果,于是取消它这一轮的资格。大部分的国产模型水平都是相近的
IP属地:江苏
来自
手机贴吧
13楼
2025-08-22 10:40
回复
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
至于第六轮,代码生成与修错(编程),是目前唯一一个两极分化的测试,这里也是楼主花的时间最长的地方。这里楼主的设置是模型如果默认有code特化的模型就是用特化模型。一开始楼主用的是deepseek-r1,后来发现有一个专门用于编程的模型deepseek-coder,结果分数大差不差。豆包一开始用的是1.5pro,分数表现跟deepseek差不太多,后来换成1.6thinking分数显著提升(毕竟是相差了半年的模型,要是没有明显的进步的话,那就完了)qwen方面一开始楼主用的是参数量最大的,结果到了第4题都完成不了测试(即0分),后来换成qwen3-coder模型就好多了。
IP属地:江苏
来自
手机贴吧
14楼
2025-08-22 10:45
回复
收起回复
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
下面是第七轮,多体裁写作测试,这里要求的文体有:议论文,说明文,记叙文,营销宣传文,现代诗歌,十四行诗,绯句,小说,散文,微小说,还有话剧。这也是十分全面了
IP属地:江苏
来自
手机贴吧
15楼
2025-08-22 10:48
回复
收起回复
2026-01-17 08:17:49
广告
不感兴趣
开通SVIP免广告
雨裁贯虹
大尉
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
测试下来的结果也是大差不差。当然这里楼主有必要先提一下deepseek-r1的表现,因为它生成的文本带有事实性的错误和幻觉,因此,在议论文和说明文中都被判了零分,新更新的模型有效地减少了这一情况的发生,如果加上这四分,deepseek就能到正常的水平
IP属地:江苏
来自
手机贴吧
16楼
2025-08-22 10:52
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
洋妞避债攻略:外嫁留子来华上岸
2130420
2
美毒虫骨缝生蛆,培根竟成救命饵
1849446
3
多兰游龙!T1暴打HLE
1461824
4
全孙吧围观:老哥追爱成功变赢家
1285281
5
老外来华看病,利好还是挤兑?
989820
6
假躺平真啃老?低欲望人群遭炮轰
706225
7
梦想成真!特朗普喜提二手诺奖
541944
8
挪威神操作!两人驻军硬刚美帝
479481
9
BLG拿下WBG,哈基虎太能送
340296
10
无敌!耄耋竟跨界搞计生用品
244020
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示